論文の概要: The Law of Multi-Model Collaboration: Scaling Limits of Model Ensembling for Large Language Models
- arxiv url: http://arxiv.org/abs/2512.23340v1
- Date: Mon, 29 Dec 2025 09:55:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.459031
- Title: The Law of Multi-Model Collaboration: Scaling Limits of Model Ensembling for Large Language Models
- Title(参考訳): マルチモデル協調の法則:大規模言語モデルのためのモデル構成のスケーリング限界
- Authors: Dakuan Lu, Jiaqi Zhang, Cheng Yuan, Jiawei Shao, Chi Zhang, Xuelong Li,
- Abstract要約: マルチモデル協調のための性能スケーリングの理論的枠組みを提案する。
本稿では,マルチモデルシステムにおいて,パラメータの総数に関して,パワー則のスケーリングが従うことを示す。
不均一なモデルファミリのアンサンブルは、単一のモデルファミリ内で形成されたものよりも優れたパフォーマンスのスケーリングを実現する。
- 参考スコア(独自算出の注目度): 54.51795784459866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have been largely driven by scaling laws for individual models, which predict performance improvements as model parameters and data volume increase. However, the capabilities of any single LLM are inherently bounded. One solution originates from intricate interactions among multiple LLMs, rendering their collective performance surpasses that of any constituent model. Despite the rapid proliferation of multi-model integration techniques such as model routing and post-hoc ensembling, a unifying theoretical framework of performance scaling for multi-model collaboration remains absent. In this work, we propose the Law of Multi-model Collaboration, a scaling law that predicts the performance limits of LLM ensembles based on their aggregated parameter budget. To quantify the intrinsic upper bound of multi-model collaboration, we adopt a method-agnostic formulation and assume an idealized integration oracle where the total cross-entropy loss of each sample is determined by the minimum loss of any model in the model pool. Experimental results reveal that multi-model systems follow a power-law scaling with respect to the total parameter count, exhibiting a more significant improvement trend and a lower theoretical loss floor compared to single model scaling. Moreover, ensembles of heterogeneous model families achieve better performance scaling than those formed within a single model family, indicating that model diversity is a primary driver of collaboration gains. These findings suggest that model collaboration represents a critical axis for extending the intelligence frontier of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、モデルパラメータやデータボリュームの増加に伴って性能が向上すると予想する個々のモデルのスケーリング法則によって大きく推進されている。
しかし、全ての単一LSMの能力は本質的に有界である。
1つの解は複数のLLM間の複雑な相互作用から導かれるもので、それらの集合的な性能はどんな構成モデルのものよりも優れている。
モデルルーティングやポストホックアンサンブルといったマルチモデル統合技術の急速な普及にもかかわらず、マルチモデルコラボレーションのためのパフォーマンススケーリングの統一理論フレームワークはいまだに存在しない。
本研究は,LLMアンサンブルの性能限界を予測するスケーリング法である多モデル協調法(Law of Multi-model Collaboration)を提案する。
多モデル協調の本質的な上界を定量化するために,手法に依存しない定式化を導入し,モデルプール内の任意のモデルの最小損失によって各サンプルの総クロスエントロピー損失が決定される理想的な積分オラクルを仮定する。
実験結果から, マルチモデルシステムは総パラメータ数に対して, パワー則スケーリングに従っており, シングルモデルスケーリングと比較して, より顕著な改善傾向を示し, 理論的損失フロアも低いことがわかった。
さらに、異種モデルファミリのアンサンブルは、単一のモデルファミリ内で形成されたものよりも優れたパフォーマンススケーリングを実現し、モデル多様性がコラボレーションゲインの主要な要因であることを示す。
これらの結果は,LLMのインテリジェンスフロンティアを拡張する上で,モデルコラボレーションが重要な軸であることを示唆している。
関連論文リスト
- Towards Reversible Model Merging For Low-rank Weights [5.100622189286672]
モデルマージは、複数の微調整されたモデルを1セットの重みにまとめることを目的としており、すべてのソースタスクでうまく機能する。
従来のマージ法を低ランクウェイトに適用すると, マージモデルの性能が著しく低下することを示す。
すべてのアダプタを1組の重みに分解する代わりに、コンパクトな基底を構築する。
これは、単一のマージモデルを生成するのではなく、再構成可能なモデル空間を生成するものとしてマージされる。
論文 参考訳(メタデータ) (2025-10-15T23:22:38Z) - The Thinking Spectrum: An Empirical Study of Tunable Reasoning in LLMs through Model Merging [8.930191971732649]
本稿では,複数の推論ベンチマークにまたがるモデルマージ手法について,大規模な実験的検討を行った。
その結果, モデルマージは, 推論精度とトークン効率のトレードオフを校正するための, 効果的かつ制御可能な手法であることがわかった。
本研究は、この調整可能な空間を包括的に解析し、特定の推論プロファイルを持つLCMを作成するための実践的ガイドラインを提供する。
論文 参考訳(メタデータ) (2025-09-26T08:12:13Z) - Why Do More Experts Fail? A Theoretical Analysis of Model Merging [51.18155031364046]
モデルマージは、複数のエキスパートモデルを単一のマルチタスクモデルに組み合わせることで、ストレージと計算資源を劇的に削減する。
最近のモデルマージ手法は有望な結果を示しているが、マージモデルの増加に伴い性能向上の維持に苦慮している。
限定効用パラメータ空間は、マージを成功させることのできるモデルの数に厳密な制約を課すことを示す。
論文 参考訳(メタデータ) (2025-05-27T14:10:46Z) - Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。
次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。
我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - Investigating the Impact of Model Complexity in Large Language Models [3.7919508292745676]
事前訓練された微調整パラダイムに基づく大規模言語モデル(LLM)は、自然言語処理タスクの解決において重要な役割を担っている。
本稿では,自己回帰 LLM に着目し,HMM (Hidden Markov Models) を用いたモデリングを提案する。
論文 参考訳(メタデータ) (2024-10-01T13:53:44Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。