論文の概要: Multimodal Instruction Tuning with Conditional Mixture of LoRA
- arxiv url: http://arxiv.org/abs/2402.15896v1
- Date: Sat, 24 Feb 2024 20:15:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 16:33:03.724818
- Title: Multimodal Instruction Tuning with Conditional Mixture of LoRA
- Title(参考訳): LoRAの条件混合によるマルチモーダルインストラクションチューニング
- Authors: Ying Shen, Zhiyang Xu, Qifan Wang, Yu Cheng, Wenpeng Yin, Lifu Huang
- Abstract要約: 本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
- 参考スコア(独自算出の注目度): 54.65520214291653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable
proficiency in diverse tasks across different domains, with an increasing focus
on improving their zero-shot generalization capabilities for unseen multimodal
tasks. Multimodal instruction tuning has emerged as a successful strategy for
achieving zero-shot generalization by fine-tuning pre-trained models on diverse
multimodal tasks through instructions. As MLLMs grow in complexity and size,
the need for parameter-efficient fine-tuning methods like Low-Rank Adaption
(LoRA), which fine-tunes with a minimal set of parameters, becomes essential.
However, applying LoRA in multimodal instruction tuning presents the challenge
of task interference, which leads to performance degradation, especially when
dealing with a broad array of multimodal tasks. To address this, this paper
introduces a novel approach that integrates multimodal instruction tuning with
Conditional Mixture-of-LoRA (MixLoRA). It innovates upon LoRA by dynamically
constructing low-rank adaptation matrices tailored to the unique demands of
each input instance, aiming to mitigate task interference. Experimental results
on various multimodal evaluation datasets indicate that MixLoRA not only
outperforms the conventional LoRA with the same or even higher ranks,
demonstrating its efficacy and adaptability in diverse multimodal tasks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、さまざまな領域にわたる多様なタスクにおいて、目立たないマルチモーダルタスクに対するゼロショットの一般化能力の向上に重点を置いている。
マルチモーダル・インストラクション・チューニングは,多種多様なマルチモーダルタスクにおける事前学習モデルを微調整することにより,ゼロショット・ジェネリゼーションの実現に成功している。
mllmの複雑さとサイズが大きくなるにつれて、最小のパラメータセットで微調整を行う低ランク適応(lora)のようなパラメータ効率の良い微調整方法が必要となる。
しかし、LoRAをマルチモーダル命令チューニングに適用することはタスク干渉の課題を示し、特に広範囲のマルチモーダルタスクを扱う場合、パフォーマンスが低下する。
そこで本研究では,MixLoRA(Conditional Mixture-of-LoRA)とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築し、タスク干渉を軽減することでLoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等またはそれ以上のランクで上回るだけでなく、多様なマルチモーダルタスクにおける有効性と適応性を示している。
関連論文リスト
- Mixture-of-LoRAs: An Efficient Multitask Tuning for Large Language
Models [7.966452497550907]
大規模言語モデル(LLM)を用いたマルチタスク学習のためのMixture-of-LoRA(MoA)アーキテクチャを提案する。
複数のドメイン固有のLoRAモジュールは、Mixture-of-Experts(MoE)で観察される専門家設計原則と一致させることができる。
各LoRAモデルは、新しいドメインに反復的に適応することができ、素早くドメイン固有の適応を可能にする。
論文 参考訳(メタデータ) (2024-03-06T03:33:48Z) - Mixture of Cluster-conditional LoRA Experts for Vision-language
Instruction Tuning [71.53493981808238]
クラスター条件のLoRAエキスパート(MoCLE)の混合
MoCLEはタスクカスタマイズモデルパラメータを活性化するために設計された新しいMixture of Expertsアーキテクチャである。
新規な命令に対するMoCLEの一般化能力を改善するために、別個のユニバーサルエキスパートがさらに組み込まれている。
論文 参考訳(メタデータ) (2023-12-19T18:11:19Z) - MultiLoRA: Democratizing LoRA for Better Multi-Task Learning [20.750808913757396]
LoRAは、特定のタスクにLLMを適用する際に、顕著なリソース効率と同等のパフォーマンスを達成する。
LoRAは少数のトップ特異ベクトルに支配され、微調整はより重要でないユニタリ変換の集合に分解される。
我々は,LoRAで観測されるトップ特異ベクトルの優位性を低減し,マルチタスク適応性を向上するMultiLoRAを提案する。
論文 参考訳(メタデータ) (2023-11-20T02:59:18Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - MOELoRA: An MOE-based Parameter Efficient Fine-Tuning Method for
Multi-task Medical Applications [60.218266928939606]
我々はMOELoRAと呼ばれるマルチタスク医療応用のためのパラメータ効率の良いファインチューニングフレームワークを提案する。
MOEとLoRAを統一するために、私たちは複数の専門家をトレーニング可能なパラメータとして考えました。
実験の結果, MOELoRAは既存のパラメータ効率の高い微調整法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-21T17:18:09Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - Multi-task Highly Adaptive Lasso [1.4680035572775534]
マルチタスク学習のための新しい非パラメトリックアプローチであるマルチタスク高適応ラッソ(MT-HAL)を提案する。
MT-HALは、共通モデルにとって重要な特徴、サンプル、タスク関連を同時に学習し、類似したタスク間で共有スパース構造を付与する。
MT-HALは、幅広いシミュレーション研究において、スパーシティーベースのMTL競合よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-27T23:46:57Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。