論文の概要: Octavius: Mitigating Task Interference in MLLMs via MoE
- arxiv url: http://arxiv.org/abs/2311.02684v1
- Date: Sun, 5 Nov 2023 15:48:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 16:12:59.281361
- Title: Octavius: Mitigating Task Interference in MLLMs via MoE
- Title(参考訳): Octavius: MoEによるMLLMのタスク干渉の軽減
- Authors: Zeren Chen, Ziqin Wang, Zhen Wang, Huayang Liu, Zhenfei Yin, Si Liu,
Lu Sheng, Wanli Ouyang, Yu Qiao, Jing Shao
- Abstract要約: LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。
ネガティブな対立や干渉は パフォーマンスに悪影響を及ぼすかもしれない
マルチモーダル言語モデル(MLLM)を用いたマルチモーダル学習に関する総合的な研究と実験のための新しいフレームワークmnameを提案する。
具体的には、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つを組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダLoRA-MoEを設計する。
- 参考スコア(独自算出の注目度): 85.76186554492543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have demonstrated Large Language Models (LLMs) can extend
their zero-shot generalization capabilities to multimodal learning through
instruction tuning. As more modalities and downstream tasks are introduced,
negative conflicts and interference may have a worse impact on performance.
While this phenomenon has been overlooked in previous work, we propose a novel
and extensible framework, called \mname, for comprehensive studies and
experimentation on multimodal learning with Multimodal Large Language Models
(MLLMs). Specifically, we combine the well-known Mixture-of-Experts (MoE) and
one of the representative PEFT techniques, \emph{i.e.,} LoRA, designing a novel
LLM-based decoder, called LoRA-MoE, for multimodal learning. The experimental
results (about 20\% improvement) have shown the effectiveness and versatility
of our design in various 2D and 3D downstream tasks. Code and corresponding
dataset will be available soon.
- Abstract(参考訳): 近年,Large Language Models (LLMs) はゼロショットの一般化能力を,命令チューニングによるマルチモーダル学習に拡張できることが実証されている。
より多くのモダリティと下流タスクが導入されると、負の衝突と干渉はパフォーマンスに悪影響を及ぼす可能性がある。
この現象は,従来の研究で見過ごされてきたが,多モーダル大規模言語モデル(MLLM)を用いた多モーダル学習の包括的研究と実験のための,新しい拡張可能なフレームワークである \mname を提案する。
具体的には、よく知られたMixture-of-Experts (MoE) と代表的PEFT技術の1つである \emph{i.e.} LoRA を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダLoRA-MoEを設計する。
実験結果(約20-%改善)は,様々な2次元および3次元下流タスクにおける設計の有効性と汎用性を示した。
コードと対応するデータセットが近く提供される。
関連論文リスト
- Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models [25.724995114710165]
マルチモーダル小言語モデル(Multimodal Small Language Models, MLM)の設計側面について検討し, Mipha という名前の効率的なマルチモーダルアシスタントを提案する。
私たちのMipha-3Bは、最先端の大規模MLLM、特にLLaVA-1.5-13Bを複数のベンチマークで上回ります。
論文 参考訳(メタデータ) (2024-03-10T12:43:27Z) - The Curious Case of Nonverbal Abstract Reasoning with Multi-Modal Large
Language Models [20.177263185773153]
MLLM(Multi-modal large language model)は、言語情報と視覚情報を統合したものである。
MLLMの革新的展望にもかかわらず、推論能力に対する我々の理解は限られている。
論文 参考訳(メタデータ) (2024-01-22T16:57:05Z) - OneLLM: One Framework to Align All Modalities with Language [90.14915575477197]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。