Fugu-MT 論文翻訳(概要): ScaleNet: Searching for the Model to Scale

論文の概要: ScaleNet: Searching for the Model to Scale

arxiv url: http://arxiv.org/abs/2207.07267v1
Date: Fri, 15 Jul 2022 03:16:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-18 21:52:16.141929
Title: ScaleNet: Searching for the Model to Scale
Title（参考訳）: ScaleNet: スケールするモデルを検索する
Authors: Jiyang Xie and Xiu Su and Shan You and Zhanyu Ma and Fei Wang and Chen Qian
Abstract要約: ベースモデルとスケーリング戦略を共同で検索するために,ScaleNetを提案する。我々は,大規模ネットワークが様々なFLOPに対して大きな性能上の優位性を持っていることを示す。
参考スコア（独自算出の注目度）: 44.05380012545087
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, community has paid increasing attention on model scaling and contributed to developing a model family with a wide spectrum of scales. Current methods either simply resort to a one-shot NAS manner to construct a non-structural and non-scalable model family or rely on a manual yet fixed scaling strategy to scale an unnecessarily best base model. In this paper, we bridge both two components and propose ScaleNet to jointly search base model and scaling strategy so that the scaled large model can have more promising performance. Concretely, we design a super-supernet to embody models with different spectrum of sizes (e.g., FLOPs). Then, the scaling strategy can be learned interactively with the base model via a Markov chain-based evolution algorithm and generalized to develop even larger models. To obtain a decent super-supernet, we design a hierarchical sampling strategy to enhance its training sufficiency and alleviate the disturbance. Experimental results show our scaled networks enjoy significant performance superiority on various FLOPs, but with at least 2.53x reduction on search cost. Codes are available at https://github.com/luminolx/ScaleNet.
Abstract（参考訳）: 近年,モデルスケールに対するコミュニティの注目が高まり,幅広いスケールのモデルファミリの開発に寄与している。現在の手法は、単に単発NAS方式で非構造的かつ非スケーリング可能なモデルファミリを構築するか、あるいは必要のない最高のベースモデルをスケールするために手動で固定されたスケーリング戦略に依存する。本稿では,2つのコンポーネントをブリッジし,スケールネットを用いてベースモデルとスケーリング戦略を共同で探索し,スケールした大規模モデルによりより有望な性能を実現することを提案する。具体的には、異なる大きさのモデル(FLOPなど)を具現化するスーパーネットを設計する。次に、スケーリング戦略をマルコフ連鎖に基づく進化アルゴリズムを通じてベースモデルと対話的に学習し、さらに大きなモデルを開発するために一般化することができる。適切なスーパーネットを得るために,トレーニングの充実と障害軽減のために階層的なサンプリング戦略を設計する。実験の結果,大規模ネットワークは様々なFLOPに対して,少なくとも2.53倍のコストで性能上の優位性が得られた。コードはhttps://github.com/luminolx/scalenetで入手できる。

関連論文リスト

GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching [41.96482857947199]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。 LLMは通常、相当なモデルサイズを持ち、デプロイメントと推論において大きな課題をもたらします。そこで我々は, モデルモデルから層を戦略的に組み合わせたり, マージしたりすることで, モデルを圧縮するための新しい戦略を開発した。
論文参考訳（メタデータ） (2025-06-25T14:24:59Z)
SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文参考訳（メタデータ） (2025-01-16T18:59:46Z)
Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文参考訳（メタデータ） (2024-10-16T14:29:29Z)
What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。本研究は,大規模モデルマージの有用性を体系的に評価する。
論文参考訳（メタデータ） (2024-10-04T17:17:19Z)
PLeaS -- Merging Models with Permutations and Least Squares [43.17620198572947]
PLeaSと呼ばれるモデルをマージする2段階の新たなアルゴリズムを提案し、制約を緩和する。 PLeaSはアライメントを最大化することで各層のノードに部分的にマッチする。また、細調整されたドメインからデータを入手できないという難題に対処するために、我々のメソッドをどのように拡張できるかを実証する。
論文参考訳（メタデータ） (2024-07-02T17:24:04Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
When Do We Not Need Larger Vision Models? [55.957626371697785]
視覚モデルのサイズを拡大することが、より強力な視覚表現を得るためのデファクトスタンダードとなっている。 S$2のScaling on Scales(スケーリング・オン・スケール)のパワーを実演します。 1行のコードで任意のビジョンモデルにS$2$を適用可能なPythonパッケージをリリースします。
論文参考訳（メタデータ） (2024-03-19T17:58:39Z)
Model Compression and Efficient Inference for Large Language Models: A Survey [20.199282252344396]
大きな言語モデルは、より小さなモデルに比べて2つの顕著な特徴を持つ。大きなモデルの最も顕著な側面は、モデルの微調整やトレーニングに関連する非常に高いコストである。大規模モデルは、1つのタスクのパフォーマンスよりも、汎用性と一般化を強調する。
論文参考訳（メタデータ） (2024-02-15T06:58:30Z)
A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd Counting [3.5066463427087777]
クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。これらのモデルは、MobileNetとMobileViTという2つの異なるバックボーンを持ちながら、同じダウンストリームアーキテクチャを維持している。隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、その後、シームレスにこれらの特徴を組み合わせる。
論文参考訳（メタデータ） (2024-01-11T15:13:31Z)
Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文参考訳（メタデータ） (2022-09-15T15:41:47Z)
Efficient Scale-Permuted Backbone with Learned Resource Distribution [41.45085444609275]
SpineNetはResNetモデルによるオブジェクト検出と画像分類に関する有望な結果を実証している。本稿では,効率的な演算と複合スケーリングを以前に学習したスケールパーミュートアーキテクチャと組み合わせる手法を提案する。その結果、オブジェクト検出における最先端のEfficientNetベースモデルより効率の良いスケール置換モデルを実現し、画像分類とセマンティックセグメンテーションにおける競合性能を実現する。
論文参考訳（メタデータ） (2020-10-22T03:59:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。