Fugu-MT 論文翻訳(概要): Multimodal Instruction Tuning with Conditional Mixture of LoRA

論文の概要: Multimodal Instruction Tuning with Conditional Mixture of LoRA

arxiv url: http://arxiv.org/abs/2402.15896v2
Date: Fri, 06 Dec 2024 00:41:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-09 22:41:40.718722
Title: Multimodal Instruction Tuning with Conditional Mixture of LoRA
Title（参考訳）: LoRAの条件混合によるマルチモーダルインストラクションチューニング
Authors: Ying Shen, Zhiyang Xu, Qifan Wang, Yu Cheng, Wenpeng Yin, Lifu Huang,
Abstract要約: 本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
参考スコア（独自算出の注目度）: 51.58020580970644
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable proficiency in diverse tasks across different domains, with an increasing focus on improving their zero-shot generalization capabilities for unseen multimodal tasks. Multimodal instruction tuning has emerged as a successful strategy for achieving zero-shot generalization by fine-tuning pre-trained models on diverse multimodal tasks through instructions. As MLLMs grow in complexity and size, the need for parameter-efficient fine-tuning methods like Low-Rank Adaption (LoRA), which fine-tunes with a minimal set of parameters, becomes essential. However, applying LoRA in multimodal instruction tuning presents the challenge of task interference, which leads to performance degradation, especially when dealing with a broad array of multimodal tasks. To address this, this paper introduces a novel approach that integrates multimodal instruction tuning with Conditional Mixture-of-LoRA (MixLoRA). It innovates upon LoRA by dynamically constructing low-rank adaptation matrices tailored to the unique demands of each input instance, aiming to mitigate task interference. Experimental results on various multimodal evaluation datasets indicate that MixLoRA not only outperforms the conventional LoRA with the same or even higher ranks, demonstrating its efficacy and adaptability in diverse multimodal tasks.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、異なるドメインにわたる多様なタスクにおいて、目立たないマルチモーダルタスクに対するゼロショットの一般化能力の改善に重点を置いている。マルチモーダル・インストラクション・チューニングは,多種多様なマルチモーダルタスクにおける事前学習モデルを微調整することにより,ゼロショット・ジェネリゼーションの実現に成功している。 MLLMの複雑さとサイズが大きくなるにつれて、最小限のパラメータセットを持つ微調整を行うLo-Rank Adaption (LoRA)のようなパラメータ効率のよい微調整手法の必要性が高まっている。しかし、LoRAをマルチモーダル命令チューニングに適用することはタスク干渉の課題を示し、特に広範囲のマルチモーダルタスクを扱う場合、パフォーマンスが低下する。そこで本研究では,MixLoRA(Conditional Mixture-of-LoRA)とマルチモーダル・インストラクション・チューニングを統合した新しい手法を提案する。各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築し、タスク干渉を軽減することでLoRAを革新する。様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等またはそれ以上のランクで上回るだけでなく、多様なマルチモーダルタスクにおいてその有効性と適応性を示すことが示された。

関連論文リスト

Align, Don't Divide: Revisiting the LoRA Architecture in Multi-Task Learning [20.31474646915225]
頭間類似度の高い単純化されたマルチヘッドアーキテクチャは、複雑なマルチアダプタおよびマルチヘッドシステムより優れていることを示す。本稿では,共有アダプタ空間内でのタスク表現の整合性を明示的に損なうAlign-LoRAを提案する。
論文参考訳（メタデータ） (2025-08-07T07:02:55Z)
MoRE: A Mixture of Low-Rank Experts for Adaptive Multi-Task Learning [18.0412262027514]
マルチタスクのためのMixture of Low-Rank Experts (MoRE)を提案する。各タスクに個別のLoRAを使う代わりに、異なるタスクでLoRAモジュールの異なるランクを調整します。また、タスクごとに適切な専門家を選択するために、新しい適応的なランクセレクタを設計する。
論文参考訳（メタデータ） (2025-05-28T12:32:09Z)
ThanoRA: Task Heterogeneity-Aware Multi-Task Low-Rank Adaptation [73.18867725540865]
Low-Rank Adaptation (LoRA) は、基礎モデルの下流の微調整に広く採用されている。タスク不均一性を考慮したマルチタスク低ランク適応フレームワークであるTanoRAを提案する。
論文参考訳（メタデータ） (2025-05-24T11:01:45Z)
AsymLoRA: Harmonizing Data Conflicts and Commonalities in MLLMs [5.018961516699825]
AsymLoRAは、知識のモジュール化と相互調整を統一するパラメータ効率のチューニングフレームワークである。 AsymLoRAは、共通点のみを捉えたバニラLoRAと、紛争のみに焦点を当てたLoRA-MoEの両方を一貫して上回っている。
論文参考訳（メタデータ） (2025-02-27T12:21:02Z)
Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.30364248231053]
本稿では,M2RAG(Multi-Modal Retrieval-Augmented Generation)を紹介する。 M2RAGはマルチモーダル大言語モデル(MLLM)の有効性を評価するためのベンチマークである。 MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文参考訳（メタデータ） (2025-02-24T16:25:25Z)
Each Rank Could be an Expert: Single-Ranked Mixture of Experts LoRA for Multi-Task Learning [53.98941571078398]
Low-Rank Adaptation (LoRA)は、その効率性とモジュール性から、大きな言語モデル(LLM)を特定のドメインに適用するために広く使われている。最近の研究は、各LoRAモジュールを専門家として扱い、複数の特殊なLoRAモジュールによるタスク干渉を軽減することで、Mixture of Experts (MoE)を採用している。効果はあるものの、これらの手法は個々のタスク内の知識を分離することが多く、関連するタスク間で共有された知識を完全に活用することができない。各ランクをテキスト処理することでMoEをLoRAに埋め込むシングルランク専門家LoRA(textbfSMoRA)を提案する。
論文参考訳（メタデータ） (2025-01-25T06:56:39Z)
Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文参考訳（メタデータ） (2024-12-19T13:25:39Z)
MoSLD: An Extremely Parameter-Efficient Mixture-of-Shared LoRAs for Multi-Task Learning [8.868481107848185]
MoSLDは、ドロップアウト戦略を備えた混合共有LoRAモデルである。 MoSLDは、LoRAの上部プロジェクションマトリックスをさまざまな専門家の間で共有することで、課題に対処する。本モデルは,シングルタスクシナリオとマルチタスクシナリオの両方において優れた性能を示す。
論文参考訳（メタデータ） (2024-12-12T05:22:49Z)
MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning [74.43869839954168]
マルチタスク学習能力を大幅に向上させながら、低ランク適応の利点を保ちながら、MTL-LoRAを提案する。 MTL-LoRAは、タスク固有の情報を識別するタスク適応パラメータを追加することでLoRAを強化する。このアプローチにより、汎用コーパス上で事前訓練された大規模言語モデル(LLM)が、限られた数のトレーニング可能なパラメータで異なるターゲットタスクドメインに適応できる。
論文参考訳（メタデータ） (2024-10-12T08:32:26Z)
M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文参考訳（メタデータ） (2024-09-24T01:40:24Z)
MoDE: Effective Multi-task Parameter Efficient Fine-Tuning with a Mixture of Dyadic Experts [6.245113492272563]
Mixture of Dyadic Experts (MoDE) は効率的なマルチタスク適応のための新しい設計である。我々の設計はよりきめ細かい混合を可能にし、それによってモデルの複数のタスクを共同で処理する能力を高めます。
論文参考訳（メタデータ） (2024-08-02T18:05:10Z)
Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文参考訳（メタデータ） (2024-05-18T12:16:01Z)
Mixture-of-LoRAs: An Efficient Multitask Tuning for Large Language Models [7.966452497550907]
大規模言語モデル(LLM)を用いたマルチタスク学習のためのMixture-of-LoRA(MoA)アーキテクチャを提案する。複数のドメイン固有のLoRAモジュールは、Mixture-of-Experts(MoE)で観察される専門家設計原則と一致させることができる。各LoRAモデルは、新しいドメインに反復的に適応することができ、素早くドメイン固有の適応を可能にする。
論文参考訳（メタデータ） (2024-03-06T03:33:48Z)
MultiLoRA: Democratizing LoRA for Better Multi-Task Learning [20.750808913757396]
LoRAは、特定のタスクにLLMを適用する際に、顕著なリソース効率と同等のパフォーマンスを達成する。 LoRAは少数のトップ特異ベクトルに支配され、微調整はより重要でないユニタリ変換の集合に分解される。我々は,LoRAで観測されるトップ特異ベクトルの優位性を低減し,マルチタスク適応性を向上するMultiLoRAを提案する。
論文参考訳（メタデータ） (2023-11-20T02:59:18Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文参考訳（メタデータ） (2023-10-13T11:57:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。