論文の概要: Mixture of Cluster-conditional LoRA Experts for Vision-language
Instruction Tuning
- arxiv url: http://arxiv.org/abs/2312.12379v1
- Date: Tue, 19 Dec 2023 18:11:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 14:42:30.449055
- Title: Mixture of Cluster-conditional LoRA Experts for Vision-language
Instruction Tuning
- Title(参考訳): 視覚言語インストラクションチューニングのためのクラスタ条件loraエキスパートの混合
- Authors: Yunhao Gou, Zhili Liu, Kai Chen, Lanqing Hong, Hang Xu, Aoxue Li,
Dit-Yan Yeung, James T. Kwok, Yu Zhang
- Abstract要約: クラスター条件のLoRAエキスパート(MoCLE)の混合
MoCLEはタスクカスタマイズモデルパラメータを活性化するために設計された新しいMixture of Expertsアーキテクチャである。
新規な命令に対するMoCLEの一般化能力を改善するために、別個のユニバーサルエキスパートがさらに組み込まれている。
- 参考スコア(独自算出の注目度): 71.53493981808238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning of the Large Vision-language Models (LVLMs) has
revolutionized the development of versatile models with zero-shot
generalization across a wide range of downstream vision-language tasks.
However, diversity of training tasks of different sources and formats would
lead to inevitable task conflicts, where different tasks conflicts for the same
set of model parameters, resulting in sub-optimal instruction-following
abilities. To address that, we propose the Mixture of Cluster-conditional LoRA
Experts (MoCLE), a novel Mixture of Experts (MoE) architecture designed to
activate the task-customized model parameters based on the instruction
clusters. A separate universal expert is further incorporated to improve the
generalization capabilities of MoCLE for novel instructions. Extensive
experiments on 10 zero-shot tasks demonstrate the effectiveness of MoCLE.
- Abstract(参考訳): LVLM(Large Vision-Language Models)のインストラクションチューニングは、幅広い下流視覚言語タスクにおいてゼロショットの一般化を伴う多目的モデルの開発に革命をもたらした。
しかし、異なるソースやフォーマットのトレーニングタスクの多様性は避けられないタスク競合につながり、異なるタスクが同じモデルパラメータのセットで競合し、結果として最適な命令追従能力となる。
そこで本研究では,タスクにカスタマイズされたモデルパラメータをアクティベートするために設計された,新しい混合型エキスパート (moe) アーキテクチャであるクラスタ条件型lora専門家 (mocle) の混合を提案する。
新たな命令に対するMoCLEの一般化能力を改善するために、別個のユニバーサルエキスパートが組み込まれている。
10のゼロショットタスクに関する大規模な実験は、MoCLEの有効性を示している。
関連論文リスト
- AT-MoE: Adaptive Task-planning Mixture of Experts via LoRA Approach [0.6906005491572401]
本稿では,Adaptive Task-planing Mixture of Experts(AT-MoE)アーキテクチャを紹介する。
まず、LoRAアプローチを用いてタスク固有の専門家を訓練し、専門分野における問題解決能力と解釈可能性を高める。
次に,複雑なタスク命令に基づくモジュール融合を最適化する階層適応型グループルーティングモジュールを提案する。
論文 参考訳(メタデータ) (2024-10-12T13:03:15Z) - MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models [57.091523832149655]
本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。
私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2024-07-17T16:31:38Z) - AdaMoLE: Fine-Tuning Large Language Models with Adaptive Mixture of Low-Rank Adaptation Experts [0.0]
本稿では,Lank Adaptation ExpertsのAdaptive Mixtureを通じて,大規模言語モデル(LLM)を微調整する新しい手法であるAdaMoLEを紹介する。
AdaMoLEは専用のしきい値ネットワークを使用してアクティベーション閾値を動的に調整し、異なるタスクの複雑さに応じて適応的に応答する。
論文 参考訳(メタデータ) (2024-05-01T07:33:43Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - Mixture-of-LoRAs: An Efficient Multitask Tuning for Large Language
Models [7.966452497550907]
大規模言語モデル(LLM)を用いたマルチタスク学習のためのMixture-of-LoRA(MoA)アーキテクチャを提案する。
複数のドメイン固有のLoRAモジュールは、Mixture-of-Experts(MoE)で観察される専門家設計原則と一致させることができる。
各LoRAモデルは、新しいドメインに反復的に適応することができ、素早くドメイン固有の適応を可能にする。
論文 参考訳(メタデータ) (2024-03-06T03:33:48Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [54.65520214291653]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - Towards Unified Task Embeddings Across Multiple Models: Bridging the Gap for Prompt-Based Large Language Models and Beyond [16.913115978881866]
本稿では,単一ベクトル空間内において,より小さな言語モデルや多様なプロンプトを持つ大規模言語モデルを含む,様々なモデルからのタスク埋め込みである統合タスク埋め込み(FUTE)フレームワークを提案する。
このような一様性は、異なるモデル間の類似性の比較と分析を可能にし、マルチモデルシナリオにおける既存のタスク埋め込みメソッドの範囲と有用性を広げる。
論文 参考訳(メタデータ) (2024-02-22T13:13:31Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。