論文の概要: On Token's Dilemma: Dynamic MoE with Drift-Aware Token Assignment for Continual Learning of Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2603.27481v1
- Date: Sun, 29 Mar 2026 02:30:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.979358
- Title: On Token's Dilemma: Dynamic MoE with Drift-Aware Token Assignment for Continual Learning of Large Vision Language Models
- Title(参考訳): トケンのジレンマについて:大規模視覚言語モデルの継続的な学習のためのドリフト対応トケンアサインメントを用いた動的MoE
- Authors: Chongyang Zhao, Mingsong Li, Haodong Lu, Dong Gong,
- Abstract要約: ドリフト対応トークン代入でMoEを漸進的に拡張する動的MoEフレームワークを提案する。
具体的には、トークンレベルのアサインガイダンスは、確立されたルーティングパターンを維持するために、新しい専門家から曖昧で古いトークンを分離する。
我々のLLaVA-DyMoEは、ルーティングドリフトによって引き起こされる忘れを効果的に軽減し、平均的な最終精度で7%以上向上し、ベースラインと比較して忘れを12%減少させる。
- 参考スコア(独自算出の注目度): 17.04431326257041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Continual Instruction Tuning aims to continually enhance Large Vision Language Models (LVLMs) by learning from new data without forgetting previously acquired knowledge. Mixture of Experts (MoE) architectures naturally facilitate this by incrementally adding new experts and expanding routers while keeping the existing ones frozen. However, despite expert isolation, MoE-based continual learners still suffer from forgetting due to routing-drift: old-task tokens become mistakenly attracted to newly added experts, degrading performance on prior tasks. We analyze the failure mode at the token level and reveal the token's dilemma: ambiguous and old tokens in new-task data offer minimal learning benefit yet induce forgetting when routed to new experts, due to their ambiguous routing assignment during training. Motivated by this, we propose LLaVA-DyMoE, a dynamic MoE framework that incrementally expands the MoE with drift-aware token assignment. We characterize token types via their routing score distributions and apply targeted regularization. Specifically, a token-level assignment guidance steers ambiguous and old tokens away from new experts to preserve established routing patterns and alleviate routing-drift, while complementary routing score regularizations enforce expert-group separation and promote new-expert specialization. Extensive experiments demonstrate that our LLaVA-DyMoE effectively mitigates routing-drift-induced forgetting, achieving over a 7% gain in mean final accuracy and a 12% reduction in forgetting compared to baselines. The project page is https://zhaoc5.github.io/DyMoE.
- Abstract(参考訳): マルチモーダル・インストラクション・チューニングは、以前取得した知識を忘れずに新しいデータから学習することで、LVLM(Large Vision Language Models)を継続的に強化することを目的としている。
Mixture of Experts (MoE)アーキテクチャは、新たなエキスパートを段階的に追加し、ルータを拡大し、既存のアーキテクチャを凍結し続けることで、これを自然に促進します。
しかし、専門家の隔離にもかかわらず、MoEベースの継続学習者は、ルーティング・ドリフトによる忘れがちである: 古いタスクトークンは、新しく追加された専門家に誤って惹かれ、以前のタスクのパフォーマンスが低下する。
我々はトークンレベルでの障害モードを分析し、トークンのジレンマを明らかにする。新しいタスクデータの曖昧さと古いトークンは、トレーニング中のあいまいなルーティング割り当てのために、新しいエキスパートにルーティングされたときの忘れを誘発する、最小限の学習利益を提供する。
そこで我々はLLaVA-DyMoEを提案する。LLaVA-DyMoEは動的MoEフレームワークで、ドリフト対応トークン代入でMoEを漸進的に拡張する。
ルーティングスコア分布によってトークンの型を特徴付け、ターゲット正則化を適用する。
具体的には、トークンレベルの割当てガイダンスは、確立されたルーティングパターンを維持し、ルーティング・ドリフトを軽減するために、新しい専門家から不明瞭で古いトークンを取り除き、補完的なルーティングスコアの正規化はエキスパートグループ分離を強制し、新しい専門家の専門化を促進する。
我々のLLaVA-DyMoEは、ルーティングドリフトにより引き起こされる忘れを効果的に軽減し、平均的な最終精度で7%以上向上し、ベースラインと比較して忘れを12%削減することを示した。
プロジェクトページはhttps://zhaoc5.github.io/DyMoE。
関連論文リスト
- SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning [83.66308307152808]
マルチモーダル・インストラクション・チューニング(MCIT)のためのStAbilized Mixture-of-Experts(SAME)を提案する。
プロプライエタリは、サブスペースへのルーティングダイナミクスを分解し、タスク関連方向のみを更新することで、専門家の選択を安定化する。
また、トレーニング中に選択した専門家を凍結するためにアダプティブな専門家アクティベーションを導入し、冗長でクロスタスクな干渉を減らす。
論文 参考訳(メタデータ) (2026-02-02T11:47:06Z) - Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance [79.21541758879012]
Mixture-of-Experts (MoE) は計算効率を保ちながらモデルキャパシティをスケールするための強力なパラダイムとして登場した。
本稿では、専門家の専門化を促進する明示的なルーティングガイダンスを備えた2ステップルータを備えたMoEフレームワークであるProMoEを紹介する。
論文 参考訳(メタデータ) (2025-10-28T17:59:02Z) - Improving Routing in Sparse Mixture of Experts with Graph of Tokens [32.46693871593765]
確率的グラフィカルモデル(PGM)の観点からSMOE(Sparse Mixture of Experts)の限界を明らかにする。
本稿では,専門家選択時のトークン間の相互作用を考慮した新しい類似性認識(S)MoEを提案する。
我々は、様々なタスクやドメインでモデルを実証的に検証し、ルーティングのゆらぎを低減するための大幅な改善を示す。
論文 参考訳(メタデータ) (2025-05-01T18:44:20Z) - LLaVA-CMoE: Towards Continual Mixture of Experts for Large Vision-Language Models [21.888139819188105]
LLaVA-CMoEは、大規模言語モデルの継続的な学習フレームワークである。
Probe-Guided Knowledge Extensionメカニズムは、いつ、どこで新しいエキスパートを追加するべきかを決定する。
Probabilistic Task Locatorは各タスクを専用軽量ルータに割り当てる。
論文 参考訳(メタデータ) (2025-03-27T07:36:11Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - Theory on Mixture-of-Experts in Continual Learning [72.42497633220547]
継続学習(CL)は、時間とともに現れる新しいタスクに適応する能力のため、大きな注目を集めている。
モデルが新しいタスクに適応するにつれて、(古いタスクの)破滅的な忘れがCLの大きな問題として認識されるようになった。
MoEモデルは近年,ゲーティングネットワークを用いることで,CLの破滅的忘れを効果的に軽減することが示されている。
論文 参考訳(メタデータ) (2024-06-24T08:29:58Z) - Overcoming Domain Drift in Online Continual Learning [24.86094018430407]
オンライン連続学習(OCL)は、機械学習モデルに一連のタスクで新しい知識をオンラインで取得する権限を与える。
OCLは、破滅的な忘れをし、以前のタスクで学んだモデルは、新しいタスクに遭遇したときに実質的に上書きされる、という大きな課題に直面します。
本稿では,古いタスクのドメインを固定し,負の転送効果を低減するための新しいリハーサル戦略であるDrift-Reducing Rehearsal(DRR)を提案する。
論文 参考訳(メタデータ) (2024-05-15T06:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。