論文の概要: Why Do More Experts Fail? A Theoretical Analysis of Model Merging
- arxiv url: http://arxiv.org/abs/2505.21226v2
- Date: Tue, 03 Jun 2025 14:43:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 16:31:03.651248
- Title: Why Do More Experts Fail? A Theoretical Analysis of Model Merging
- Title(参考訳): より多くの専門家が失敗する理由 : モデルマージの理論分析
- Authors: Zijing Wang, Xingle Xu, Yongkang Liu, Yiqun Zhang, Peiqin Lin, Shi Feng, Xiaocui Yang, Daling Wang, Hinrich Schütze,
- Abstract要約: モデルマージは、複数のエキスパートモデルを単一のマルチタスクモデルに組み合わせることで、ストレージと計算資源を劇的に削減する。
最近のモデルマージ手法は有望な結果を示しているが、マージモデルの増加に伴い性能向上の維持に苦慮している。
限定効用パラメータ空間は、マージを成功させることのできるモデルの数に厳密な制約を課すことを示す。
- 参考スコア(独自算出の注目度): 51.18155031364046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model merging dramatically reduces storage and computational resources by combining multiple expert models into a single multi-task model. Although recent model merging methods have shown promising results, they struggle to maintain performance gains as the number of merged models increases. In this paper, we investigate the key obstacles that limit the scalability of model merging when integrating a large number of expert models. First, we prove that there is an upper bound on model merging. Further theoretical analysis reveals that the limited effective parameter space imposes a strict constraint on the number of models that can be successfully merged. Gaussian Width shows that the marginal benefit of merging additional models diminishes according to a strictly concave function. This implies that the effective parameter space becomes rapidly saturated as the number of merged models increases. Furthermore, using Approximate Kinematics Theory, we prove the existence of a unique optimal threshold beyond which adding more models does not yield significant performance improvements. At the same time, we introduce a straightforward Reparameterized Heavy-Tailed method (RHT) to extend the coverage of the merged model, thereby enhancing its performance. Empirical results on 12 benchmarks, including both knowledge-intensive and general-purpose tasks, validate our theoretical analysis. We believe that these results spark further research beyond the current scope of model merging. The source code is in the Github repository: https://github.com/wzj1718/ModelMergingAnalysis.
- Abstract(参考訳): モデルマージは、複数のエキスパートモデルを単一のマルチタスクモデルに組み合わせることで、ストレージと計算資源を劇的に削減する。
最近のモデルマージ手法は有望な結果を示しているが、マージするモデルの数が増加するにつれて性能向上の維持に苦慮している。
本稿では,多数のエキスパートモデルを統合する際に,モデルマージのスケーラビリティを制限する重要な障害について検討する。
まず、モデルマージに上限が存在することを証明する。
さらに理論的解析により、制限された有効パラメータ空間は、うまくマージできるモデルの数に厳密な制約を課すことが明らかになった。
ガウス・ウィッス(英語版)は、追加モデルを統合することの限界的な利点が厳密な凹函数に従って減少することを示した。
これは、マージされたモデルの数が増加するにつれて、有効パラメータ空間が急速に飽和することを意味する。
さらに、近似キネマティクス理論を用いて、より多くのモデルを追加することで大きな性能改善が得られない、一意の最適しきい値の存在を証明した。
同時に、マージモデルの範囲を拡大し、その性能を向上させるために、簡単なRHT法(Reparameterized Heavy-Tailed method)を導入する。
知識集約型タスクと汎用タスクの両方を含む12のベンチマークの実証的な結果が、我々の理論解析を検証した。
これらの結果は、現在のモデルマージの範囲を超えて、さらなる研究を引き起こしていると考えています。
ソースコードはGithubリポジトリにある。 https://github.com/wzj1718/ModelMergingAnalysis。
関連論文リスト
- Multi-Level Collaboration in Model Merging [56.31088116526825]
本稿では,モデルマージとモデルアンサンブルの本質的な関係について考察する。
これまでの制限が満たされていない場合でも、モデルのマージによって、アンサンブルと同じような、ほぼ同一かつ優れたパフォーマンスを達成する方法がまだ存在することが分かっています。
論文 参考訳(メタデータ) (2025-03-03T07:45:04Z) - Scalable Model Merging with Progressive Layer-wise Distillation [17.521794641817642]
ProDistill (Progressive Layer-wise Distillation) を導入する。
ProDistillは、視力とNLUタスクの6.14%と6.61%の改善を達成している。
論文 参考訳(メタデータ) (2025-02-18T10:15:18Z) - Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。
モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。
我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - LowFER: Low-rank Bilinear Pooling for Link Prediction [4.110108749051657]
本稿では,多モーダル学習においてよく用いられる因子化双線形プールモデルを提案する。
我々のモデルは、他のモデルを一般化することが示されている分解タッカーベースのタッカーモデルを自然に一般化する。
実世界のデータセット、パー・オブ・ザ・アーティファクトのパフォーマンスについて評価する。
論文 参考訳(メタデータ) (2020-08-25T07:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。