論文の概要: Enhancing Multimodal Continual Instruction Tuning with BranchLoRA
- arxiv url: http://arxiv.org/abs/2506.02041v1
- Date: Sat, 31 May 2025 09:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.872672
- Title: Enhancing Multimodal Continual Instruction Tuning with BranchLoRA
- Title(参考訳): BranchLoRAによるマルチモーダルインストラクションチューニングの強化
- Authors: Duzhen Zhang, Yong Ren, Zhong-Zhi Li, Yahan Yu, Jiahua Dong, Chenxing Li, Zhilong Ji, Jinfeng Bai,
- Abstract要約: マルチモーダル・インストラクション・チューニング(Multimodal Continual Instruction Tuning)は、マルチモーダル・大規模言語モデル(MLLM)を微調整し、人間の意図と継続的に一致させることを目的としている。
既存のアプローチは、しばしば以前の命令アライメントを維持するためにMixture-of-Experts (MoE) LoRAフレームワークに依存している。
効率と性能を両立させる非対称なフレームワークである BranchLoRA を提案する。
- 参考スコア(独自算出の注目度): 26.618850482040397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Continual Instruction Tuning (MCIT) aims to finetune Multimodal Large Language Models (MLLMs) to continually align with human intent across sequential tasks. Existing approaches often rely on the Mixture-of-Experts (MoE) LoRA framework to preserve previous instruction alignments. However, these methods are prone to Catastrophic Forgetting (CF), as they aggregate all LoRA blocks via simple summation, which compromises performance over time. In this paper, we identify a critical parameter inefficiency in the MoELoRA framework within the MCIT context. Based on this insight, we propose BranchLoRA, an asymmetric framework to enhance both efficiency and performance. To mitigate CF, we introduce a flexible tuning-freezing mechanism within BranchLoRA, enabling branches to specialize in intra-task knowledge while fostering inter-task collaboration. Moreover, we incrementally incorporate task-specific routers to ensure an optimal branch distribution over time, rather than favoring the most recent task. To streamline inference, we introduce a task selector that automatically routes test inputs to the appropriate router without requiring task identity. Extensive experiments on the latest MCIT benchmark demonstrate that BranchLoRA significantly outperforms MoELoRA and maintains its superiority across various MLLM sizes.
- Abstract(参考訳): MCIT(Multimodal Continual Instruction Tuning)は、MLLM(Multimodal Large Language Models)を微調整し、シーケンシャルタスク間の人間の意図を継続的に調整することを目的としている。
既存のアプローチは、しばしば以前の命令アライメントを維持するためにMixture-of-Experts (MoE) LoRAフレームワークに依存している。
しかし、これらの手法は単純な和で全てのLoRAブロックを集約するので、時間の経過とともに性能を損なう。
本稿では,MCIT コンテキスト内の MoELoRA フレームワークにおける臨界パラメータの非効率性を同定する。
この知見に基づいて、効率と性能を両立させる非対称なフレームワークであるBranchLoRAを提案する。
CFを緩和するため,ブランチロラ内にフレキシブルなチューニングフリーズ機構を導入し,タスク間コラボレーションの促進を図りながら,タスク内知識の専門化を可能にする。
さらに、タスク固有のルータをインクリメンタルに組み込んで、最新のタスクを優先するのではなく、時間とともに最適な分岐分布を確保する。
推論の合理化のために,タスク識別を必要とせずに,テスト入力を適切なルータに自動的にルーティングするタスクセレクタを導入する。
最新のMCITベンチマークでの大規模な実験により、BranchLoRAはMoELoRAを著しく上回り、MLLMのさまざまなサイズでその優位性を維持していることが示された。
関連論文リスト
- MoRE: A Mixture of Low-Rank Experts for Adaptive Multi-Task Learning [18.0412262027514]
マルチタスクのためのMixture of Low-Rank Experts (MoRE)を提案する。
各タスクに個別のLoRAを使う代わりに、異なるタスクでLoRAモジュールの異なるランクを調整します。
また、タスクごとに適切な専門家を選択するために、新しい適応的なランクセレクタを設計する。
論文 参考訳(メタデータ) (2025-05-28T12:32:09Z) - In-Context Meta LoRA Generation [61.690065588534296]
Low-rank Adaptation (LoRA) はタスク固有の微調整機能を示す。
In-Context Meta LoRA (ICM-LoRA) は,大規模言語モデルのタスク固有のカスタマイズを効率的に行う新しい手法である。
ICM-LoRAは、現在のパラメータ再構成法よりも正確なLoRAパラメータ再構成を可能にする。
論文 参考訳(メタデータ) (2025-01-29T13:12:01Z) - Each Rank Could be an Expert: Single-Ranked Mixture of Experts LoRA for Multi-Task Learning [53.98941571078398]
Low-Rank Adaptation (LoRA)は、その効率性とモジュール性から、大きな言語モデル(LLM)を特定のドメインに適用するために広く使われている。
最近の研究は、各LoRAモジュールを専門家として扱い、複数の特殊なLoRAモジュールによるタスク干渉を軽減することで、Mixture of Experts (MoE)を採用している。
効果はあるものの、これらの手法は個々のタスク内の知識を分離することが多く、関連するタスク間で共有された知識を完全に活用することができない。
各ランクをテキスト処理することでMoEをLoRAに埋め込むシングルランク専門家LoRA(textbfSMoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-25T06:56:39Z) - MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning [74.43869839954168]
MTL能力を大幅に向上させながら、低ランク適応の利点を保ちつつ、MTL-LoRAを提案する。
MTL-LoRAは、タスク固有の情報を識別し、共有知識をキャプチャするタスク適応パラメータを追加することで、LoRAを強化する。
このアプローチにより、事前訓練されたモデルは、限られた数のトレーニング可能なパラメータで、異なるターゲットドメインに共同で適応することができる。
論文 参考訳(メタデータ) (2024-10-12T08:32:26Z) - MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models [4.978361907192563]
MeteoRAはスケーラブルで効率的なフレームワークで、複数のタスク固有のLoRAアダプタをベースLLMに再利用する。
MeteoRAは複合タスクの処理において優れた性能を実現し、単一の推論パスで10のシーケンシャルな問題を効果的に解決する。
論文 参考訳(メタデータ) (2024-05-19T20:46:07Z) - Mixture-of-LoRAs: An Efficient Multitask Tuning for Large Language
Models [7.966452497550907]
大規模言語モデル(LLM)を用いたマルチタスク学習のためのMixture-of-LoRA(MoA)アーキテクチャを提案する。
複数のドメイン固有のLoRAモジュールは、Mixture-of-Experts(MoE)で観察される専門家設計原則と一致させることができる。
各LoRAモデルは、新しいドメインに反復的に適応することができ、素早くドメイン固有の適応を可能にする。
論文 参考訳(メタデータ) (2024-03-06T03:33:48Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [51.58020580970644]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。