論文の概要: SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning
- arxiv url: http://arxiv.org/abs/2602.01990v1
- Date: Mon, 02 Feb 2026 11:47:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.114665
- Title: SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning
- Title(参考訳): マルチモーダル・インストラクション・チューニングのための安定ミキサー・オブ・エクスプロイト
- Authors: Zhen-Hao Xie, Jun-Tao Tang, Yu-Cheng Shi, Han-Jia Ye, De-Chuan Zhan, Da-Wei Zhou,
- Abstract要約: マルチモーダル・インストラクション・チューニング(MCIT)のためのStAbilized Mixture-of-Experts(SAME)を提案する。
プロプライエタリは、サブスペースへのルーティングダイナミクスを分解し、タスク関連方向のみを更新することで、専門家の選択を安定化する。
また、トレーニング中に選択した専門家を凍結するためにアダプティブな専門家アクティベーションを導入し、冗長でクロスタスクな干渉を減らす。
- 参考スコア(独自算出の注目度): 83.66308307152808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) achieve strong performance through instruction tuning, but real-world deployment requires them to continually expand their capabilities, making Multimodal Continual Instruction Tuning (MCIT) essential. Recent methods leverage sparse expert routing to promote task specialization, but we find that the expert routing process suffers from drift as the data distribution evolves. For example, a grounding query that previously activated localization experts may instead be routed to irrelevant experts after learning OCR tasks. Meanwhile, the grounding-related experts can be overwritten by new tasks and lose their original functionality. Such failure reflects two problems: router drift, where expert selection becomes inconsistent over time, and expert drift, where shared experts are overwritten across tasks. Therefore, we propose StAbilized Mixture-of-Experts (SAME) for MCIT. To address router drift, SAME stabilizes expert selection by decomposing routing dynamics into orthogonal subspaces and updating only task-relevant directions. To mitigate expert drift, we regulate expert updates via curvature-aware scaling using historical input covariance in a rehearsal-free manner. SAME also introduces adaptive expert activation to freeze selected experts during training, reducing redundant computation and cross-task interference. Extensive experiments demonstrate its SOTA performance.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、命令チューニングによって強力なパフォーマンスを実現するが、実世界のデプロイメントでは、その能力を継続的に拡張する必要があるため、MCIT(Multimodal Continual Instruction Tuning)が不可欠である。
近年,タスクの専門化を促進するためにスパース・エキスパート・ルーティングを利用する手法が提案されているが,データ分散の進展に伴い,エキスパート・ルーティング・プロセスはドリフトに悩まされる。
例えば、以前活性化されたローカライゼーションの専門家に対するグラウンドクエリは、OCRタスクを学習した後、無関係な専門家にルーティングされる可能性がある。
一方、接地関係の専門家は、新しいタスクによって上書きされ、元の機能が失われる可能性がある。
このような失敗は、時間とともに専門家の選択が矛盾するルータのドリフトと、タスク間で共有された専門家がオーバーライトされる専門家のドリフトの2つの問題を反映している。
そこで我々は,MCITのためのStAbilized Mixture-of-Experts (SAME)を提案する。
ルータのドリフトに対処するため、Pateは、直交部分空間にルーティングダイナミクスを分解し、タスク関連方向のみを更新することで、専門家の選択を安定化する。
専門家のドリフトを緩和するため、履歴入力共分散を用いた曲率対応スケーリングによる専門家の更新をリハーサルのない方法で調整する。
また、トレーニング中に選択した専門家を凍結するためにアダプティブな専門家アクティベーションを導入し、冗長な計算とクロスタスクの干渉を減らす。
大規模な実験はSOTAのパフォーマンスを実証する。
関連論文リスト
- ERMoE: Eigen-Reparameterized Mixture-of-Experts for Stable Routing and Interpretable Specialization [13.182475975397251]
ERMoEは、学習したゲーティングログを"Eigenbasis Score"に置き換えるスパースなMoE変換器である
ERMoE は ImageNet 分類と クロスモーダル画像テキスト検索ベンチマークにおける最先端の精度を実現する。
3D MRI変異体(ERMoE-ba)は、脳年齢予測の精度を7%以上改善し、解釈可能な専門家の専門化をもたらす。
論文 参考訳(メタデータ) (2025-11-14T05:31:37Z) - Adaptive Shared Experts with LoRA-Based Mixture of Experts for Multi-Task Learning [49.90176890917986]
マルチタスク学習(MTL)のための強力なフレームワークとして、Mixture-of-Experts(MoE)が登場した。
既存のMoE-MTL法は、しばしばシングルタスクで事前訓練されたバックボーンに依存し、冗長な適応と非効率的な知識共有に悩まされる。
低ランク適応 (LoRA) に基づく MoE の適応型共有専門家 (ASE) を提案する。
論文 参考訳(メタデータ) (2025-10-01T06:49:19Z) - Dropping Experts, Recombining Neurons: Retraining-Free Pruning for Sparse Mixture-of-Experts LLMs [54.95810313530111]
DERNは、専門家のプルーニングと再構築のためのタスク非依存でトレーニングなしのフレームワークである。
コモンセンス推論やMMLUベンチマークでは、50%のエキスパートスパシティでパフォーマンスを5%以上向上させる。
論文 参考訳(メタデータ) (2025-09-12T16:09:39Z) - SEE: Continual Fine-tuning with Sequential Ensemble of Experts [25.96255683276355]
大規模言語モデル(LLM)の継続的な微調整は破滅的な忘れ込みに悩まされる。
SEE(Sequential Ensemble of Experts)フレームワークを紹介します。
SEEは、追加のルータの必要性を排除し、各専門家がクエリを処理するかどうかを独立して決定できるようにする。
論文 参考訳(メタデータ) (2025-04-09T07:56:56Z) - LLaVA-CMoE: Towards Continual Mixture of Experts for Large Vision-Language Models [21.888139819188105]
LLaVA-CMoEは、大規模言語モデルの継続的な学習フレームワークである。
Probe-Guided Knowledge Extensionメカニズムは、いつ、どこで新しいエキスパートを追加するべきかを決定する。
Probabilistic Task Locatorは各タスクを専用軽量ルータに割り当てる。
論文 参考訳(メタデータ) (2025-03-27T07:36:11Z) - Complexity Experts are Task-Discriminative Learners for Any Image Restoration [80.46313715427928]
複雑性の専門家" - 様々な計算複雑性と受容的なフィールドを持つフレキシブルな専門家ブロックを紹介します。
この選好は、タスク固有の割り当てを効果的に推進し、適切な複雑さを持つ専門家にタスクを割り当てる。
提案したMoCE-IRモデルは最先端の手法より優れており、その効率性と実用性が確認されている。
論文 参考訳(メタデータ) (2024-11-27T15:58:07Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z) - Learning from Guided Play: Improving Exploration for Adversarial
Imitation Learning with Simple Auxiliary Tasks [8.320969283401233]
本研究は, 探索における標準的, ナイーブなアプローチが, 最適な局所的最大値として表れることを示す。
複数の探索的補助的タスクのエキスパートによるデモンストレーションを活用するフレームワークであるLfGP(Learning from Guided Play)を提示する。
論文 参考訳(メタデータ) (2022-12-30T20:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。