論文の概要: Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE
- arxiv url: http://arxiv.org/abs/2311.02684v2
- Date: Wed, 13 Mar 2024 12:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 17:58:17.067695
- Title: Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE
- Title(参考訳): Octavius: LoRA-MoEによるMLLMのタスク干渉の軽減
- Authors: Zeren Chen, Ziqin Wang, Zhen Wang, Huayang Liu, Zhenfei Yin, Si Liu,
Lu Sheng, Wanli Ouyang, Yu Qiao, Jing Shao
- Abstract要約: LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。
ネガティブな対立や干渉は パフォーマンスに悪影響を及ぼすかもしれない
我々は,MLLMを用いたマルチモーダル学習に関する総合的な研究と実験を行うための,Octaviusと呼ばれる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 85.76186554492543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have demonstrated Large Language Models (LLMs) can extend
their zero-shot generalization capabilities to multimodal learning through
instruction tuning. As more modalities and downstream tasks are introduced,
negative conflicts and interference may have a worse impact on performance.
While this phenomenon has been overlooked in previous work, we propose a novel
and extensible framework, called Octavius, for comprehensive studies and
experimentation on multimodal learning with Multimodal Large Language Models
(MLLMs). Specifically, we combine the well-known Mixture-of-Experts (MoE) and
one of the representative PEFT techniques, i.e., LoRA, designing a novel
LLM-based decoder, called LoRA-MoE, for multimodal learning. To the best of our
knowledge, we are one of the pioneering efforts to introduce MoE into MLLMs to
address this problem. The experimental results (about 20% improvement) have
shown the effectiveness and versatility of our design in various 2D and 3D
downstream tasks. Code and datasets are available at
https://openlamm.github.io/paper_list/Octavius.
- Abstract(参考訳): 近年,Large Language Models (LLMs) は,命令チューニングによってゼロショットの一般化能力をマルチモーダル学習に拡張できることが実証されている。
より多くのモダリティやダウンストリームタスクが導入されるにつれて、負の衝突や干渉がパフォーマンスに悪影響を及ぼす可能性がある。
従来,この現象は軽視されてきたが,多モーダル大規模言語モデル(MLLM)を用いた多モーダル学習の包括的研究と実験を行うために,Octaviusと呼ばれる新しい拡張可能なフレームワークを提案する。
具体的には、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技術(LoRA)を組み合わせて、LLMベースの新しいデコーダ(LoRA-MoE)をマルチモーダル学習用に設計する。
私たちの知る限りでは、この問題に対処するためにMLLMにMoEを導入しようとする先駆的な取り組みの1つです。
実験の結果(約20%の改善)は、様々な2Dおよび3D下流タスクにおける設計の有効性と汎用性を示している。
コードとデータセットはhttps://openlamm.github.io/paper_list/Octaviusで公開されている。
関連論文リスト
- Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small
Language Models [26.580947591319212]
マルチモーダル小言語モデル(Multimodal Small Language Models, MLM)の設計側面について検討し, Mipha という名前の効率的なマルチモーダルアシスタントを提案する。
私たちのMipha-3Bは、最先端の大規模MLLM、特にLLaVA-1.5-13Bを複数のベンチマークで上回ります。
論文 参考訳(メタデータ) (2024-03-10T12:43:27Z) - The Curious Case of Nonverbal Abstract Reasoning with Multi-Modal Large
Language Models [20.177263185773153]
MLLM(Multi-modal large language model)は、言語情報と視覚情報を統合したものである。
MLLMの革新的展望にもかかわらず、推論能力に対する我々の理解は限られている。
論文 参考訳(メタデータ) (2024-01-22T16:57:05Z) - LoRAMoE: Alleviate World Knowledge Forgetting in Large Language Models
via MoE-Style Plugin [85.16356890023582]
ルータネットワークを用いてローランクアダプタ(LoRA)を複数導入し,それらを統合する新しいフレームワークであるLoRAMoEを提案する。
バックボーンモデルを凍結し、LoRAの一部をダウンストリームタスクの解決に世界の知識を活用することに集中させます。
実験の結果、命令データが増加するにつれて、LoRAMoEは下流タスクの処理能力を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2023-12-15T17:45:06Z) - OneLLM: One Framework to Align All Modalities with Language [90.14915575477197]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z) - A Survey on Multimodal Large Language Models [56.754753799607585]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために、脳として強力な大規模言語モデルを使用する。
MLLMの驚くべき創発的能力、例えば画像に基づくストーリーの作成やOCRのない数学推論は、伝統的な手法ではまれである。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z) - mPLUG-Owl: Modularization Empowers Large Language Models with
Multimodality [55.698502221911944]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。