論文の概要: LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts
in Instruction Finetuning MLLMs
- arxiv url: http://arxiv.org/abs/2401.16160v2
- Date: Tue, 30 Jan 2024 15:44:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 11:35:55.862229
- Title: LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts
in Instruction Finetuning MLLMs
- Title(参考訳): LLaVA-Mole: インストラクションファインタニングMLLMにおけるデータ衝突の軽減を目的としたLoRAエキスパートのスパースミックス
- Authors: Shaoxiang Chen, Zequn Jie, Lin Ma
- Abstract要約: MLLMの命令微調整に有効なMixture of Experts(MoE)設計法を提案する。
大規模な実験により、LLaVA-MoLEは複数の異なる命令データセットを混合する際のデータ競合問題を効果的に軽減することが証明された。
LLaVA-MoLEは2倍のサンプルで訓練された平らなLoRAベースラインよりも優れている。
- 参考スコア(独自算出の注目度): 29.96139552754377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction finetuning on a variety of image-text instruction data is the key
to obtaining a versatile Multimodal Large Language Model (MLLM), and different
configurations of the instruction data can lead to finetuned models with
different capabilities. However, we have discovered that data conflicts are
inevitable when mixing instruction data from distinct domains, which can result
in performance drops for tasks of a specific domain. To address this issue, we
propose to apply an efficient Mixture of Experts (MoE) design, which is a
sparse Mixture of LoRA Experts (MoLE) for instruction finetuning MLLMs. Within
the Transformer layers, we extend the popular Low-Rank Adaption (LoRA) method
by creating a set of LoRA experts specifically for the MLP layer, and route
each token to the top-1 expert based on a routing function, allowing adaptive
choices for tokens from different domains. Since the LoRA experts are sparsely
activated, the training and inference cost are kept roughly constant compared
to the original LoRA method. By replacing the plain-LoRA of LLaVA-1.5 with our
MoE design, our final model is named LLaVA-MoLE. Extensive experiments proved
that LLaVA-MoLE effectively mitigates the data conflict issue when mixing
multiple distinct instruction datasets with various configurations, and
achieves consistent performance gains over the strong plain-LoRA baselines.
Most importantly, on the mixed datasets, LLaVA-MoLE can even outperform the
plain-LoRA baseline trained with twice the samples.
- Abstract(参考訳): 様々な画像テキスト・インストラクション・データに基づくインストラクション・ファインタニングは多機能なマルチモーダル言語モデル(MLLM)を得る鍵であり、命令データの異なる構成は異なる機能を持つ微調整モデルにつながる可能性がある。
しかし、異なるドメインから命令データを混合する場合、データ競合は避けられないことを発見し、それによって特定のドメインのタスクのパフォーマンスが低下する可能性がある。
この問題に対処するために,MLLMの命令微調整のためのLoRA Experts (MoLE) の疎混合である,効率的なMixture of Experts (MoE) 設計を提案する。
トランスフォーマー層内では、MLP層に特化したLoRA専門家セットを作成し、各トークンをルーティング関数に基づいてトップ-1エキスパートにルーティングすることで、一般的なローランド適応(LoRA)メソッドを拡張し、異なるドメインからのトークンの適応的な選択を可能にする。
LoRAの専門家はわずかに活性化されているため、トレーニングと推論のコストはオリジナルのLoRA法と比べてほぼ一定である。
LLaVA-1.5のプレーンロラをMoE設計に置き換えることで、最終モデルはLLaVA-MoLEと名付けられた。
大規模な実験により、LLaVA-MoLEは複数の異なる命令データセットと様々な構成を混合する際のデータ競合問題を効果的に軽減し、強いプレーンなLoRAベースラインに対して一貫したパフォーマンス向上を実現することが証明された。
最も重要なことは、混合データセット上では、LLaVA-MoLEは2倍のサンプルでトレーニングされたプレーンなLoRAベースラインよりも優れています。
関連論文リスト
- Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning [57.36978335727009]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整する効率的な方法を提供する。
本稿では,入力プロンプトに基づいて複数のLoRAを適応的に検索・構成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T05:24:41Z) - Mixture of LoRA Experts [87.50120181861362]
本稿では,階層的制御と未分散分岐選択を利用する LoRA Experts (MoLE) アプローチを提案する。
MoLEアプローチは直接算術マージよりも優れたLoRA融合性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T11:59:53Z) - Mixture-of-LoRAs: An Efficient Multitask Tuning for Large Language
Models [7.966452497550907]
大規模言語モデル(LLM)を用いたマルチタスク学習のためのMixture-of-LoRA(MoA)アーキテクチャを提案する。
複数のドメイン固有のLoRAモジュールは、Mixture-of-Experts(MoE)で観察される専門家設計原則と一致させることができる。
各LoRAモデルは、新しいドメインに反復的に適応することができ、素早くドメイン固有の適応を可能にする。
論文 参考訳(メタデータ) (2024-03-06T03:33:48Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [54.65520214291653]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - LoRA-Flow: Dynamic LoRA Fusion for Large Language Models in Generative
Tasks [72.88244322513039]
LoRAは、ダウンストリームタスクやドメイン毎に大きな言語モデル(LLM)をカスタマイズするために軽量モジュールを使用している。
動的重みを利用して異なるLoRAの影響を調整するLoRA-Flowを提案する。
6つの生成タスクに対する実験により、我々の手法はタスクレベルの融合重みでベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2024-02-18T04:41:25Z) - LoraRetriever: Input-Aware LoRA Retrieval and Composition for Mixed
Tasks in the Wild [76.67343971195267]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整するための効率的なソリューションを提供する。
LoraRetrieverは、入力プロンプトに従って複数のLoRAを適応的に検索して構成する検索テーマ構成フレームワークである。
実験結果から、LoraRetrieverは一貫してベースラインを上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T15:02:46Z) - MultiLoRA: Democratizing LoRA for Better Multi-Task Learning [20.750808913757396]
LoRAは、特定のタスクにLLMを適用する際に、顕著なリソース効率と同等のパフォーマンスを達成する。
LoRAは少数のトップ特異ベクトルに支配され、微調整はより重要でないユニタリ変換の集合に分解される。
我々は,LoRAで観測されるトップ特異ベクトルの優位性を低減し,マルチタスク適応性を向上するMultiLoRAを提案する。
論文 参考訳(メタデータ) (2023-11-20T02:59:18Z) - Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [85.76186554492543]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。
ネガティブな対立や干渉は パフォーマンスに悪影響を及ぼすかもしれない
我々は,MLLMを用いたマルチモーダル学習に関する総合的な研究と実験を行うための,Octaviusと呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-05T15:48:29Z) - NOLA: Compressing LoRA using Linear Combination of Random Basis [22.76088132446952]
我々は、ロラに存在するランク1の下界を克服するNOLAを導入する。
NOLAは、ランク1のLoRAと比較してパラメータ数がはるかに少ないLoRAモデルと同様に、最高の圧縮LoRAをアーカイブできる。
論文 参考訳(メタデータ) (2023-10-04T03:30:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。