論文の概要: CRAM: Centroid-Routing and Adaptive MoE for Multimodal Continual Instruction Tuning
- arxiv url: http://arxiv.org/abs/2606.02502v1
- Date: Mon, 01 Jun 2026 17:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.527502
- Title: CRAM: Centroid-Routing and Adaptive MoE for Multimodal Continual Instruction Tuning
- Title(参考訳): CRAM: Centroid-Routing and Adaptive MoE for Multimodal Continual Instruction Tuning
- Authors: Jun-Tao Tang, Zhen-Hao Xie, Yu-Cheng Shi, Da-Wei Zhou,
- Abstract要約: MLLM(Multimodal Large Language Models)は、多種多様な視覚言語タスクを、命令チューニングを通じて共有生成フレームワークで統合する。
既存のメソッドは、共有パラメータセットですべてのタスクを更新するか、新しいタスクごとに専用のモジュールを割り当てる。
CRAMはタスク固有のパターンを独立したモジュールに分離することで、タスク間の破滅的な忘れを軽減します。
- 参考スコア(独自算出の注目度): 16.21619173438734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) unify heterogeneous vision-language tasks under a shared generative framework via instruction tuning, yet real-world deployment demands continuous capability expansion, making Multimodal Continual Instruction Tuning (MCIT) essential. Existing methods either update all tasks with a shared parameter set or allocate dedicated modules for each new task. Shared updates force heterogeneous tasks to compete, causing forgetting of learned capabilities. Conversely, isolated expansion prevents interference but severely limits parameter efficiency over long task streams. To address this dilemma, we propose CRAM. Specifically, by isolating task-specific patterns into independent modules, CRAM mitigates catastrophic forgetting across tasks. To further boost parameter efficiency, we utilize adaptive-rank instantiation to identify the capability gap between existing expert capability and new task demands, and dynamically allocate only the necessary parameters. To ensure stable reuse among tasks, centroid-guided routing recognizes and activates existing experts' capabilities, while an orthogonality penalty confines new updates to task-specific directions, preventing re-learning general capability. Extensive experiments across diverse benchmarks consistently demonstrate its superiority over existing methods.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は,マルチモーダル・インストラクション・チューニング(MCIT)を必須とする,マルチモーダル・インストラクション・チューニング(Multimodal Continual Instruction Tuning)を実現する。
既存のメソッドは、共有パラメータセットですべてのタスクを更新するか、新しいタスクごとに専用のモジュールを割り当てる。
共有された更新は異種タスクを競合させ、学習能力を忘れる原因となる。
逆に、分離された拡張は干渉を防ぐが、長いタスクストリームに対するパラメータ効率を著しく制限する。
このジレンマに対処するため,我々はCRAMを提案する。
具体的には、タスク固有のパターンを独立したモジュールに分離することで、CRAMはタスク間で破滅的な忘れを軽減します。
パラメータ効率をさらに高めるため,既存のエキスパート能力と新たなタスク要求の能力ギャップを識別するために適応ランクインスタンス化を利用し,必要なパラメータのみを動的に割り当てる。
タスク間の安定した再利用を確保するために、セントロイド誘導ルーティングは既存の専門家の能力を認識し、活性化する。
様々なベンチマークにわたる大規模な実験は、既存の方法よりも優れたことを一貫して示している。
関連論文リスト
- FLAME: Adaptive Mixture-of-Experts for Continual Multimodal Multi-Task Learning [31.686140342132745]
複数のドメインにまたがる実世界のモデル展開には、2つの補完的な体制の下で運用するマルチモーダルモデルが必要である。
フレキシブルなモダリティの組み合わせにまたがるマルチタスク事前学習と連続学習のためのスケーラブルなMoEフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-10T06:09:32Z) - Decomposing the Basic Abilities of Large Language Models: Mitigating Cross-Task Interference in Multi-Task Instruct-Tuning [58.90602461025722]
大規模言語モデル(LLM)におけるマルチタスクインストラクトチューニングは、主にマルチタスクインストラクトチューニングによって駆動されている。
トレーニングパラダイムは、異なるタスク間で共有されたパラメータよりも勾配が矛盾するため、クロスタスク干渉と呼ばれる重要な問題に悩まされる。
本稿では,LLMパラメータを基本能力を表す高特異値LoRAエキスパートに分解するBADITを提案する。
6LLMのSuperNIベンチマークで広範な実験を行い、実験結果から、BADITはSOTA法より優れ、クロスタスク干渉の程度を緩和できることが示された。
論文 参考訳(メタデータ) (2026-05-07T05:08:58Z) - AR-MOT: Autoregressive Multi-object Tracking [56.09738000988466]
本稿では,大規模言語モデル(LLM)フレームワーク内のシーケンス生成タスクとしてMOTを定式化する,新しい自己回帰パラダイムを提案する。
この設計により、タスク固有のヘッドを必要とせずに、フレキシブルなシーケンス構成によって構造化された結果を出力できる。
地域レベルの視覚知覚を高めるために,事前訓練された検出器に基づくオブジェクト・トケナイザを導入する。
論文 参考訳(メタデータ) (2026-01-05T09:17:28Z) - Mixtures of SubExperts for Large Language Continual Learning [6.425296129700846]
タスクの連続ストリームに大規模言語モデルを適用することは、決定的だが挑戦的な取り組みである。
1組のPEFTパラメータを新しいタスクに再利用すると、しばしば以前の知識を壊滅的に忘れてしまう。
本稿では,最小限の忘れ込みと効率のよい拡張性を実現するための,新しい連続学習フレームワークであるTextitMixtures of SubExperts (MoSEs)を提案する。
論文 参考訳(メタデータ) (2025-11-09T05:44:45Z) - ThanoRA: Task Heterogeneity-Aware Multi-Task Low-Rank Adaptation [96.86211867758652]
Low-Rank Adaptation (LoRA) は、基礎モデルの下流の微調整に広く採用されている。
タスク不均一性を考慮したマルチタスク低ランク適応フレームワークであるTanoRAを提案する。
論文 参考訳(メタデータ) (2025-05-24T11:01:45Z) - FM-LoRA: Factorized Low-Rank Meta-Prompting for Continual Learning [19.068489119024388]
連続学習は、シーケンシャルなタスクに事前訓練されたモデルを活用するための有望なアプローチとして登場した。
既存のCLメソッドの多くは、ローランド適応(LoRA)アダプタやプロンプトなどの学習構造を漸進的に格納する。
動的階数セレクタ(DRS)と動的メタプロンプティング(DMP)の両方を統合した,新規で効率的な低ランク適応手法FM-LoRAを提案する。
論文 参考訳(メタデータ) (2025-04-09T19:36:18Z) - LLaVA-CMoE: Towards Continual Mixture of Experts for Large Vision-Language Models [21.888139819188105]
LLaVA-CMoEは、大規模言語モデルの継続的な学習フレームワークである。
Probe-Guided Knowledge Extensionメカニズムは、いつ、どこで新しいエキスパートを追加するべきかを決定する。
Probabilistic Task Locatorは各タスクを専用軽量ルータに割り当てる。
論文 参考訳(メタデータ) (2025-03-27T07:36:11Z) - Task-Aware Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [70.96345405979179]
オフラインマルチタスク強化学習(MTRL)の目的は、オンライン環境相互作用を必要とせず、多様なタスクに適用可能な統一されたポリシーを開発することである。
タスクの内容と複雑さの変化は、政策の定式化において重大な課題を引き起こします。
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
論文 参考訳(メタデータ) (2024-11-02T05:49:14Z) - PECTP: Parameter-Efficient Cross-Task Prompts for Incremental Vision Transformer [76.39111896665585]
インクリメンタルラーニング(IL)は、シーケンシャルタスクの深いモデルを継続的に学習することを目的としている。
近年の大規模事前訓練モデル (PTM) は, 従来の試料を含まない実用ILにおいて, 即時的手法により優れた性能を発揮している。
論文 参考訳(メタデータ) (2024-07-04T10:37:58Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。