論文の概要: An Empirical Study and Theoretical Explanation on Task-Level Model-Merging Collapse
- arxiv url: http://arxiv.org/abs/2603.09463v1
- Date: Tue, 10 Mar 2026 10:18:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.222974
- Title: An Empirical Study and Theoretical Explanation on Task-Level Model-Merging Collapse
- Title(参考訳): タスクレベルモデル・マージ崩壊に関する実証的研究と理論的説明
- Authors: Yuan Cao, Dezhi Ran, Yuzhe Guo, Mengzhou Wu, Simin Chen, Linyi Li, Wei Yang, Tao Xie,
- Abstract要約: タスクレベルのマージ崩壊現象を特定し,特徴付ける。
タスク間の表現的不整合性は、マージ崩壊と強く相関していることを示す。
我々は、次元依存境界を持つ速度歪理論を通じて、この現象に関する理論的説明を提供する。
- 参考スコア(独自算出の注目度): 19.740211950583525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging unifies independently fine-tuned LLMs from the same base, enabling reuse and integration of parallel development efforts without retraining. However, in practice we observe that merging does not always succeed: certain combinations of task-specialist models suffer from catastrophic performance degradation after merging. We refer to this failure mode as merging collapse. Intuitively, collapse arises when the learned representations or parameter adjustments for different tasks are fundamentally incompatible, so that merging forces destructive interference rather than synergy. In this paper, we identify and characterize the phenomenon of task-level merging collapse, where certain task combinations consistently trigger huge performance degradation across all merging methods. Through extensive experiments and statistical analysis, we demonstrate that representational incompatibility between tasks is strongly correlated with merging collapse, while parameter-space conflict metrics show minimal correlation, challenging conventional wisdom in model merging literature. We provide a theoretical explanation on this phenomenon through rate-distortion theory with a dimension-dependent bound, establishing fundamental limits on task mergeability regardless of methodology.
- Abstract(参考訳): モデルマージは独立して同じベースから微調整されたLLMを統一し、再訓練せずに並列開発作業の再利用と統合を可能にする。
しかし、実際には、マージは必ずしも成功しない:特定のタスク・スペシャリストモデルの組み合わせはマージ後の破滅的なパフォーマンス劣化に悩まされる。
この障害モードをマージ崩壊と呼んでいる。
直感的には、異なるタスクに対する学習された表現やパラメータの調整が根本的に相容れないときに、崩壊が起こる。
本稿では,タスクレベルのマージ崩壊現象を識別し,特徴付ける。
広範囲にわたる実験と統計分析により,タスク間の表現の不整合性はマージ崩壊と強く相関していることが示され,パラメータ空間のコンフリクトメトリクスは最小の相関を示すが,モデルマージ文学における従来の知恵に挑戦する。
本稿では,この現象を次元依存境界を持つ速度歪み理論を通じて理論的に説明し,方法論によらずタスクマージ可能性の基本的限界を確立する。
関連論文リスト
- Model Merging in the Essential Subspace [78.5390284258307]
モデルマージは、複数のタスク固有の細調整されたモデルを、追加のトレーニングなしで単一のマルチタスクモデルに統合することを目的としている。
広範囲の研究にもかかわらず、タスク干渉は依然として大きな障害であり、しばしば統合されたモデルの性能を損なう。
効率的なモデルマージのための堅牢なフレームワークであるESM(Essential Subspace Merging)を提案する。
論文 参考訳(メタデータ) (2026-02-23T00:33:38Z) - Architecture Decoupling Is Not All You Need For Unified Multimodal Model [64.19284951218098]
本稿では,トレーニング中のタスク-特定マルチモーダルインタラクションパターンを明示的に学習する,意図的インタラクションアライメント(AIA)の損失を提案する。
AIAは、横断的な注意パターンを洗練するだけでなく、生成と理解の両方のパフォーマンスも向上させる。
論文 参考訳(メタデータ) (2025-11-27T17:55:25Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Rethinking Layer-wise Model Merging through Chain of Merges [21.26982153528304]
Chain of Merges(CoM)は、層間で重みを順次マージし、アクティベーション統計を逐次更新するレイヤワイドマージ手順である。
標準ベンチマークの実験では、CoMが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-08-29T08:44:47Z) - On Task Vectors and Gradients [24.021393654093103]
タスクベクトルとタスク損失の勾配との接続を確立することにより、タスク演算の厳密な理論的基礎を提供する。
標準勾配勾配下では,1つの微調整のエポックから生成されたタスクベクトルは,学習速度によってスケールされた損失の負の勾配と正確に等価であることを示す。
7つの視覚ベンチマークによる経験的分析は、我々の理論を裏付け、最初のエポック勾配がノルムと方向の両方において微調整軌道を支配していることを示す。
論文 参考訳(メタデータ) (2025-08-22T04:16:42Z) - Multi-Level Collaboration in Model Merging [56.31088116526825]
本稿では,モデルマージとモデルアンサンブルの本質的な関係について考察する。
これまでの制限が満たされていない場合でも、モデルのマージによって、アンサンブルと同じような、ほぼ同一かつ優れたパフォーマンスを達成する方法がまだ存在することが分かっています。
論文 参考訳(メタデータ) (2025-03-03T07:45:04Z) - The Non-Local Model Merging Problem: Permutation Symmetries and Variance Collapse [25.002218722102505]
モデルマージは、特定のタスクでトレーニングされた複数のエキスパートモデルの重みを、単一のマルチタスクモデルに効率的に結合することを目的としている。
この研究は、"非ローカル"マージのより困難なシナリオを探求する。
標準的なマージ技術は、この非局所的な環境で効果的に一般化できないことが多い。
本稿では,タスク毎のマージモデルの出力アクティベーションを再スケール・シフトするマルチタスク手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T17:41:59Z) - Task Groupings Regularization: Data-Free Meta-Learning with Heterogeneous Pre-trained Models [83.02797560769285]
Data-Free Meta-Learning (DFML)は、トレーニング済みモデルのコレクションから、元のデータにアクセスせずに知識を抽出することを目的としている。
現在の手法は、事前訓練されたモデル間の不均一性を見落とし、タスクの衝突による性能低下につながることが多い。
論文 参考訳(メタデータ) (2024-05-26T13:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。