論文の概要: When Model Merging Breaks Routing: Training-Free Calibration for MoE
- arxiv url: http://arxiv.org/abs/2606.03391v1
- Date: Tue, 02 Jun 2026 09:33:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.908623
- Title: When Model Merging Breaks Routing: Training-Free Calibration for MoE
- Title(参考訳): モデルマージがルーティングを破る時 - MoEのトレーニング不要校正
- Authors: Canbin Huang, Tianyuan Shi, Xiaojun Quan, Jingang Wang, Jianfei Zhang, Qifan Wang,
- Abstract要約: Hessian-Aware Router (HARC) は、二階曲率情報を利用してマージされたルータを認識できるトレーニングフリーのフレームワークである。
数学的推論とコード生成タスクの実験は、HARCが様々なMoEマージベースライン間のルーティングの分解を効果的に軽減していることを示している。
- 参考スコア(独自算出の注目度): 67.27839627141972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model merging has emerged as a cost-effective approach for consolidating the capabilities of multiple LLMs without retraining. However, existing merging techniques, largely based on linear parameter arithmetic or optimization, struggle when applied to Mixture-of-Experts (MoE) architectures. We identify a critical failure mode in MoE merging, termed routing breakdown, in which the merged router fails to dispatch tokens to suitable experts. Routing breakdown stems from the sensitivity of the non-linear softmax and discrete Top-k routing mechanisms to parameter perturbations from merging, a sensitivity further amplified by load-balancing constraints imposed during MoE pretraining. Because fine-tuned experts exhibit distinct specializations, even modest misrouting can cause severe performance degradation. To address this issue, we propose Hessian-Aware Router Calibration (HARC), a training-free framework that leverages second-order curvature information to realign the merged router. This approach admits a closed-form solution that can be efficiently solved using a matrix-free conjugate gradient method. Experiments on mathematical reasoning and code generation tasks show that HARC effectively mitigates routing breakdown across diverse MoE merging baselines and leads to substantial performance improvements. Our code is available at https://github.com/huangcb01/HARC.
- Abstract(参考訳): モデルマージは、再トレーニングなしに複数のLLMの能力を統合するためのコスト効率の良いアプローチとして登場した。
しかし、既存のマージ手法は、主に線形パラメータ演算や最適化に基づいており、Mixture-of-Experts (MoE)アーキテクチャに適用する場合に苦労する。
我々は,MoEのマージにおいて重要な障害モードを同定し,マージしたルータが適切な専門家にトークンをディスパッチできない経路分解と呼ぶ。
ルーティングのブレークダウンは、非線形ソフトマックスと離散Top-kルーティング機構の感度から、マージからのパラメータ摂動への感度、MoE事前訓練中に課される負荷分散制約によってさらに増幅される感度に起因している。
微調整された専門家は、異なる特殊化を示すため、控えめなミスルーチンでさえ、重大なパフォーマンス劣化を引き起こす可能性がある。
この問題に対処するため,HARC (Hessian-Aware Router Calibration) を提案する。
このアプローチでは、行列自由共役勾配法を用いて効率的に解ける閉形式解が認められる。
数学的推論とコード生成タスクの実験は、HARCが様々なMoEマージベースライン間のルーティングのブレークダウンを効果的に軽減し、大幅なパフォーマンス改善をもたらすことを示している。
私たちのコードはhttps://github.com/huangcb01/HARC.orgで公開されています。
関連論文リスト
- Routing by Analogy: kNN-Augmented Expert Assignment for Mixture-of-Experts [32.65737144630759]
Mixture-of-Experts (MoE)アーキテクチャは、パラメトリックな"router"を使用して、トークンを専門家のまばらなサブセットにディスパッチすることで、大きな言語モデルを効率的にスケールする。
我々は、類似したケースのメモリから最適な専門家の割り当てを再利用する検索強化ルーティングフレームワークであるkNN-MoEを紹介する。
実験の結果、kNN-MoEはゼロショットベースラインよりも優れており、計算コストのかかる微調整に匹敵することがわかった。
論文 参考訳(メタデータ) (2026-01-05T14:16:11Z) - Rewiring Experts on the Fly:Continuous Rerouting for Better Online Adaptation in Mixture-of-Expert models [52.502867924372275]
Mixture-of-Experts (MoE)モデルは、スパース専門家のアクティベーションを通じて効率的なスケーリングを実現するが、デプロイメントの分散シフトによる最適以下のルーティング決定に悩まされることが多い。
我々は、外部の監視やデータなしで、テキスト生成中にMoEルーティング決定を継続的に適用するテキストタデータフリーオンラインテストタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-16T16:24:36Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Learning to Coordinate: Distributed Meta-Trajectory Optimization Via Differentiable ADMM-DDP [4.880846795915428]
多様なタスクやエージェント構成に適応するために,L2C(Learning to Coordinate)を提案する。
L2CはADMM-DDPパイプラインを通じてエンドツーエンドを分散的に区別する。
最先端の手法よりも高速な勾配計算を実現する。
論文 参考訳(メタデータ) (2025-09-01T17:17:05Z) - Mixture of Routers [16.169900017745327]
我々は、Mixture of Routers (MoR) と呼ばれる効率的な微調整法を提案する。
MoRはジョイントセレクションに複数のサブルータを使用し、学習可能なメインルータを使用してサブルータの重みを決定する。
その結果、MoRは、ほとんどのタスクにおいてベースラインモデルよりも優れており、平均的なパフォーマンス改善は1%であることがわかった。
論文 参考訳(メタデータ) (2025-03-30T08:39:09Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。