論文の概要: Model Merging Scaling Laws in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.24244v3
- Date: Wed, 01 Oct 2025 05:31:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 12:11:26.791861
- Title: Model Merging Scaling Laws in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるモデルマージスケーリング法則
- Authors: Yuanyi Wang, Yanggan Gu, Yiming Zhang, Qi Zhou, Zhaoyi Yan, Congkai Xie, Xinyao Wang, Jianbo Yuan, Hongxia Yang,
- Abstract要約: クロスエントロピーによって測定された言語モデルマージのスケーリング法則について検討する。
モデルサイズとエキスパート番号を結びつけるコンパクトパワー法則を同定する。
ここでは、なぜゲインが 1/k になるのかを説明する単純な理論を示す。
- 参考スコア(独自算出の注目度): 31.729786400858373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study empirical scaling laws for language model merging measured by cross-entropy. Despite its wide practical use, merging lacks a quantitative rule that predicts returns as we add experts or scale the model size. We identify a compact power law that links model size and expert number: the size-dependent floor decreases with model capacity, while the merging tail exhibits clear diminishing returns in the number of experts. The law holds in-domain and cross-domain, tightly fits measured curves across diverse architectures and methods (Average, TA, TIES, DARE), and explains two robust regularities: most gains arrive early, and variability shrinks as more experts are included. Building on this, we present a simple theory that explains why gains fall roughly as 1/k and links the floor and tail to properties of the base model and the diversity across domains. This law enables predictive planning: estimate how many experts are needed to reach a target loss, decide when to stop adding experts, and trade off scaling the base model versus adding experts under a fixed budget--turning merging from heuristic practice into a computationally efficient, planable alternative to multitask training. This suggests a scaling principle for distributed generative AI: predictable gains can be achieved by composing specialists, offering a complementary path toward AGI-level systems.
- Abstract(参考訳): クロスエントロピーによって測定された言語モデルマージに対する経験的スケーリング法則について検討する。
大規模な実用的使用にもかかわらず、マージには、専門家の追加やモデルサイズの拡大に伴ってリターンを予測する定量的なルールが欠けている。
モデルサイズとエキスパート数とを結びつけるコンパクトな電力法則を同定する。サイズ依存フロアはモデル容量に比例して減少するが、マージテールはエキスパート数で明らかに減少するリターンを示す。
この法則はドメイン内とクロスドメインを保持し、さまざまなアーキテクチャやメソッド(平均、TA、TIES、DARE)をまたいだ測定曲線を厳格に適合させ、堅牢な2つの規則を説明する。
これに基づいて、ゲインが約1/kに落ちて、フロアとテールがベースモデルの特性とドメイン間の多様性に結びつく理由を説明する単純な理論を示す。
この法律は予測計画を可能にします: 目標の損失に達するのに必要な専門家数を見積もり、いつ専門家を追加するのをやめるかを決め、ベースモデルのスケーリングを中止します。
これは、分散生成AIのスケーリング原則を示唆している。予測可能なゲインは、AGIレベルのシステムへの補完パスを提供する専門家を構成することで達成できる。
関連論文リスト
- Why Do More Experts Fail? A Theoretical Analysis of Model Merging [51.18155031364046]
モデルマージは、複数のエキスパートモデルを単一のマルチタスクモデルに組み合わせることで、ストレージと計算資源を劇的に削減する。
最近のモデルマージ手法は有望な結果を示しているが、マージモデルの増加に伴い性能向上の維持に苦慮している。
限定効用パラメータ空間は、マージを成功させることのできるモデルの数に厳密な制約を課すことを示す。
論文 参考訳(メタデータ) (2025-05-27T14:10:46Z) - Scaling over Scaling: Exploring Test-Time Scaling Plateau in Large Reasoning Models [7.2703757624760526]
大規模推論モデル(LRM)は、内部テストタイムスケーリングによる推論性能の向上能力を示した。
これらのスケーリング境界を推し進めるにつれて、現実的な限界を理解し、最適なリソース割り当てを達成することが重要な課題となります。
本稿では,テストタイムスケーリングのスケーリングプレートを調査し,TTSPM(Test-Time Scaling Performance Model)を導入する。
論文 参考訳(メタデータ) (2025-05-26T20:58:45Z) - Do Larger Language Models Imply Better Generalization? A Pretraining Scaling Law for Implicit Reasoning [89.17086632436363]
本研究では,実世界の大規模知識グラフの構造と分布を再現する合成マルチホップ推論環境を提案する。
我々の推論タスクは、グラフの欠落したエッジを補完することであり、これは高度なマルチホップ推論を必要とし、現実世界の推論シナリオを模倣する。
特定の知識グラフに対して最適なモデルサイズを予測するために,知識グラフ探索エントロピーを最適モデルサイズに線形にマッピングする経験的スケーリングを求める。
論文 参考訳(メタデータ) (2025-04-04T17:57:22Z) - Scaling Law Phenomena Across Regression Paradigms: Multiple and Kernel Approaches [28.569601803576845]
トランスフォーマーアーキテクチャを持つモデルの場合、テスト損失はモデルサイズ、データセットサイズ、トレーニングで使用される計算量と強力な関係を示す。
我々の分析はスケーリング法則に関する深い洞察を与え、大きな言語モデルに対する理解を深める可能性がある。
論文 参考訳(メタデータ) (2025-03-03T08:57:49Z) - Beyond Scaleup: Knowledge-aware Parsimony Learning from Deep Networks [47.6830995661091]
トレーニングデータセット、学習可能なパラメータ、計算能力のブルートフォーススケールアップは、より堅牢な学習モデルを開発するための一般的な戦略となっている。
本稿では、より単純なモデルでより大きな可能性を実現するために、同種の方法でこの問題に対処しようと試みる。
鍵となるのは、純粋にスケールアップに頼るのではなく、記号、論理、公式といったドメイン固有の知識を使ってモデルを駆動することだ。
論文 参考訳(メタデータ) (2024-06-29T15:52:37Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - Scaling Laws for Fine-Grained Mixture of Experts [4.412803924115907]
ミキチャー・オブ・エキスパート(MoE)モデルは、大規模言語モデルの計算コストを削減するための主要なソリューションとして登場した。
本研究では,拡張変数を組み込んだスケーリング特性の解析を行う。
トレーニングトークンの数、モデルサイズ、粒度を考慮して、粒度の細かいMoEのスケーリング法則を確立します。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z) - Scaling Laws Beyond Backpropagation [64.0476282000118]
因果デコーダのみの変換器を効率的に訓練するための直接フィードバックアライメントの有効性について検討した。
DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かりました。
論文 参考訳(メタデータ) (2022-10-26T10:09:14Z) - ER: Equivariance Regularizer for Knowledge Graph Completion [107.51609402963072]
我々は、新しい正規化器、すなわち等分散正規化器(ER)を提案する。
ERは、頭と尾のエンティティ間の意味的等価性を利用することで、モデルの一般化能力を高めることができる。
実験結果から,最先端関係予測法よりも明確かつ実質的な改善が示された。
論文 参考訳(メタデータ) (2022-06-24T08:18:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。