論文の概要: Dynamic Mixture of Curriculum LoRA Experts for Continual Multimodal Instruction Tuning
- arxiv url: http://arxiv.org/abs/2506.11672v1
- Date: Fri, 13 Jun 2025 11:03:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.759671
- Title: Dynamic Mixture of Curriculum LoRA Experts for Continual Multimodal Instruction Tuning
- Title(参考訳): 連続型マルチモーダルインストラクションチューニングのためのカリキュラムLORAエキスパートの動的混合
- Authors: Chendi Ge, Xin Wang, Zeyang Zhang, Hong Chen, Jiapei Fan, Longtao Huang, Hui Xue, Wenwu Zhu,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)を進化タスクに適用するには,連続的マルチモーダル命令チューニングが不可欠である。
そこで本稿では,MLLMのアーキテクチャをパラメータ予算で自動的に進化させ,新しいタスクに継続的に適応する新しいD-MoLE法を提案する。
具体的には、動的レイヤワイド・エキスパート・アロケータを提案し、アーキテクチャの衝突を解決するために、レイヤ間でLoRA専門家を自動的に割り当てる。
そこで我々は,MLLMにおける各モジュールの更新率を,各モジュールの難易度に基づいて調整する,勾配に基づくモーダル間連続カリキュラムを提案する。
- 参考スコア(独自算出の注目度): 45.019751165506946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual multimodal instruction tuning is crucial for adapting Multimodal Large Language Models (MLLMs) to evolving tasks. However, most existing methods adopt a fixed architecture, struggling with adapting to new tasks due to static model capacity. We propose to evolve the architecture under parameter budgets for dynamic task adaptation, which remains unexplored and imposes two challenges: 1) task architecture conflict, where different tasks require varying layer-wise adaptations, and 2) modality imbalance, where different tasks rely unevenly on modalities, leading to unbalanced updates. To address these challenges, we propose a novel Dynamic Mixture of Curriculum LoRA Experts (D-MoLE) method, which automatically evolves MLLM's architecture with controlled parameter budgets to continually adapt to new tasks while retaining previously learned knowledge. Specifically, we propose a dynamic layer-wise expert allocator, which automatically allocates LoRA experts across layers to resolve architecture conflicts, and routes instructions layer-wisely to facilitate knowledge sharing among experts. Then, we propose a gradient-based inter-modal continual curriculum, which adjusts the update ratio of each module in MLLM based on the difficulty of each modality within the task to alleviate the modality imbalance problem. Extensive experiments show that D-MoLE significantly outperforms state-of-the-art baselines, achieving a 15% average improvement over the best baseline. To the best of our knowledge, this is the first study of continual learning for MLLMs from an architectural perspective.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)を進化タスクに適用するには,連続的マルチモーダル命令チューニングが不可欠である。
しかし、既存のほとんどのメソッドは固定アーキテクチャを採用しており、静的モデルキャパシティのために新しいタスクに適応するのに苦労している。
我々は、動的タスク適応のためのパラメータ予算の下でアーキテクチャを進化させることを提案する。
1) 異なるタスクが異なるレイヤワイド適応を必要とするタスクアーキテクチャの対立。
2) モダリティの不均衡は、異なるタスクが不均一にモダリティに依存し、不均衡な更新につながる。
これらの課題に対処するために,MLLMのアーキテクチャを制御パラメータ予算で自動的に進化させ,学習した知識を維持しつつ,新しいタスクに継続的に適応する,新しいD-MoLE法を提案する。
具体的には,動的レイヤワイド・エキスパート・アロケータを提案する。このアロケータは,アーキテクチャ上の対立を解決するために,レイヤ間でLoRA専門家を自動的に割り当て,専門家間の知識共有を容易にするために,レイヤワイズ・インストラクションをルーティングする。
そこで本稿では,タスク内の各モダリティの難易度に基づいてMLLMの各モジュールの更新率を調整し,モダリティの不均衡問題を緩和する,勾配に基づくモーダル間連続カリキュラムを提案する。
大規模な実験により、D-MoLEは最先端のベースラインを著しく上回り、最高のベースラインよりも平均15%向上していることが示された。
私たちの知る限りでは、アーキテクチャの観点からMLLMの継続的な学習に関する最初の研究である。
関連論文リスト
- Mixture-of-Experts Meets In-Context Reinforcement Learning [29.866936147753368]
本稿では,テキストbfT2MIR(textbfToken- and textbfTask-wise textbfMoE for textbfIn-context textbfRL)を紹介する。
総合的な実験により、T2MIRはコンテキスト内学習能力を大幅に向上させ、様々なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-06-05T06:29:14Z) - Separable Mixture of Low-Rank Adaptation for Continual Visual Instruction Tuning [16.873306091966693]
視覚的インストラクションチューニングにより、大規模な言語モデル(MLLM)は、言語ベースのインストラクションとしてフレーミングすることで、幅広い視覚タスクを処理できる。
CVITでは,MLLMが学習した視覚的理解を忘れると同時に,学習能力の低下を経験する。
本稿では2つの異なるモジュール間の分離可能なルーティングを利用するSMOLoRAフレームワークについて紹介する。
このデュアルルーチン設計により、両方のドメインに特別な適応が可能となり、性能を改善しながら、忘れることを防ぐことができる。
論文 参考訳(メタデータ) (2024-11-21T09:00:15Z) - AT-MoE: Adaptive Task-planning Mixture of Experts via LoRA Approach [0.6906005491572401]
本稿では,Adaptive Task-planing Mixture of Experts(AT-MoE)アーキテクチャを紹介する。
まず、LoRAアプローチを用いてタスク固有の専門家を訓練し、専門分野における問題解決能力と解釈可能性を高める。
次に,複雑なタスク命令に基づくモジュール融合を最適化する階層適応型グループルーティングモジュールを提案する。
論文 参考訳(メタデータ) (2024-10-12T13:03:15Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [51.58020580970644]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - Continual Instruction Tuning for Large Multimodal Models [30.438442723421556]
マルチタスク・ジョイント・インストラクション・チューニングはモデルの連続的な学習能力と忘れ忘れを促進させる。
LMMの連続的命令チューニングのためのタスク類似性インフォームド正規化とモデル拡張法を提案する。
論文 参考訳(メタデータ) (2023-11-27T15:04:48Z) - JiuZhang 2.0: A Unified Chinese Pre-trained Language Model for
Multi-task Mathematical Problem Solving [77.51817534090789]
マルチタスク数学問題の解法を専門とする統一中国語 PLM である textbfJiuZhang2.0 を提案する。
我々の考えは、中規模のモデルを維持し、マルチタスク設定におけるモデル容量を改善するために、Emphcross-taskの知識共有を利用することである。
論文 参考訳(メタデータ) (2023-06-19T15:45:36Z) - Fully Online Meta-Learning Without Task Boundaries [80.09124768759564]
この性質のオンライン問題にメタラーニングを適用する方法について検討する。
タスク境界に関する基礎的な真理知識を必要としない完全オンラインメタラーニング(FOML)アルゴリズムを提案する。
実験の結果,FOMLは最先端のオンライン学習手法よりも高速に新しいタスクを学習できることがわかった。
論文 参考訳(メタデータ) (2022-02-01T07:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。