論文の概要: ScaleNet: Searching for the Model to Scale
- arxiv url: http://arxiv.org/abs/2207.07267v1
- Date: Fri, 15 Jul 2022 03:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-18 21:52:16.141929
- Title: ScaleNet: Searching for the Model to Scale
- Title(参考訳): ScaleNet: スケールするモデルを検索する
- Authors: Jiyang Xie and Xiu Su and Shan You and Zhanyu Ma and Fei Wang and Chen
Qian
- Abstract要約: ベースモデルとスケーリング戦略を共同で検索するために,ScaleNetを提案する。
我々は,大規模ネットワークが様々なFLOPに対して大きな性能上の優位性を持っていることを示す。
- 参考スコア(独自算出の注目度): 44.05380012545087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, community has paid increasing attention on model scaling and
contributed to developing a model family with a wide spectrum of scales.
Current methods either simply resort to a one-shot NAS manner to construct a
non-structural and non-scalable model family or rely on a manual yet fixed
scaling strategy to scale an unnecessarily best base model. In this paper, we
bridge both two components and propose ScaleNet to jointly search base model
and scaling strategy so that the scaled large model can have more promising
performance. Concretely, we design a super-supernet to embody models with
different spectrum of sizes (e.g., FLOPs). Then, the scaling strategy can be
learned interactively with the base model via a Markov chain-based evolution
algorithm and generalized to develop even larger models. To obtain a decent
super-supernet, we design a hierarchical sampling strategy to enhance its
training sufficiency and alleviate the disturbance. Experimental results show
our scaled networks enjoy significant performance superiority on various FLOPs,
but with at least 2.53x reduction on search cost. Codes are available at
https://github.com/luminolx/ScaleNet.
- Abstract(参考訳): 近年,モデルスケールに対するコミュニティの注目が高まり,幅広いスケールのモデルファミリの開発に寄与している。
現在の手法は、単に単発NAS方式で非構造的かつ非スケーリング可能なモデルファミリを構築するか、あるいは必要のない最高のベースモデルをスケールするために手動で固定されたスケーリング戦略に依存する。
本稿では,2つのコンポーネントをブリッジし,スケールネットを用いてベースモデルとスケーリング戦略を共同で探索し,スケールした大規模モデルによりより有望な性能を実現することを提案する。
具体的には、異なる大きさのモデル(FLOPなど)を具現化するスーパーネットを設計する。
次に、スケーリング戦略をマルコフ連鎖に基づく進化アルゴリズムを通じてベースモデルと対話的に学習し、さらに大きなモデルを開発するために一般化することができる。
適切なスーパーネットを得るために,トレーニングの充実と障害軽減のために階層的なサンプリング戦略を設計する。
実験の結果,大規模ネットワークは様々なFLOPに対して,少なくとも2.53倍のコストで性能上の優位性が得られた。
コードはhttps://github.com/luminolx/scalenetで入手できる。
関連論文リスト
- SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。
モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。
我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - When Do We Not Need Larger Vision Models? [55.957626371697785]
視覚モデルのサイズを拡大することが、より強力な視覚表現を得るためのデファクトスタンダードとなっている。
S$2のScaling on Scales(スケーリング・オン・スケール)のパワーを実演します。
1行のコードで任意のビジョンモデルにS$2$を適用可能なPythonパッケージをリリースします。
論文 参考訳(メタデータ) (2024-03-19T17:58:39Z) - Model Compression and Efficient Inference for Large Language Models: A
Survey [20.199282252344396]
大きな言語モデルは、より小さなモデルに比べて2つの顕著な特徴を持つ。
大きなモデルの最も顕著な側面は、モデルの微調整やトレーニングに関連する非常に高いコストである。
大規模モデルは、1つのタスクのパフォーマンスよりも、汎用性と一般化を強調する。
論文 参考訳(メタデータ) (2024-02-15T06:58:30Z) - A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd
Counting [3.5066463427087777]
クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。
これらのモデルは、MobileNetとMobileViTという2つの異なるバックボーンを持ちながら、同じダウンストリームアーキテクチャを維持している。
隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、その後、シームレスにこれらの特徴を組み合わせる。
論文 参考訳(メタデータ) (2024-01-11T15:13:31Z) - Efficient Scale-Permuted Backbone with Learned Resource Distribution [41.45085444609275]
SpineNetはResNetモデルによるオブジェクト検出と画像分類に関する有望な結果を実証している。
本稿では,効率的な演算と複合スケーリングを以前に学習したスケールパーミュートアーキテクチャと組み合わせる手法を提案する。
その結果、オブジェクト検出における最先端のEfficientNetベースモデルより効率の良いスケール置換モデルを実現し、画像分類とセマンティックセグメンテーションにおける競合性能を実現する。
論文 参考訳(メタデータ) (2020-10-22T03:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。