論文の概要: Octavius: Mitigating Task Interference in MLLMs via MoE
- arxiv url: http://arxiv.org/abs/2311.02684v1
- Date: Sun, 5 Nov 2023 15:48:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 16:12:59.281361
- Title: Octavius: Mitigating Task Interference in MLLMs via MoE
- Title(参考訳): Octavius: MoEによるMLLMのタスク干渉の軽減
- Authors: Zeren Chen, Ziqin Wang, Zhen Wang, Huayang Liu, Zhenfei Yin, Si Liu,
Lu Sheng, Wanli Ouyang, Yu Qiao, Jing Shao
- Abstract要約: LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。
ネガティブな対立や干渉は パフォーマンスに悪影響を及ぼすかもしれない
マルチモーダル言語モデル(MLLM)を用いたマルチモーダル学習に関する総合的な研究と実験のための新しいフレームワークmnameを提案する。
具体的には、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つを組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダLoRA-MoEを設計する。
- 参考スコア(独自算出の注目度): 85.76186554492543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have demonstrated Large Language Models (LLMs) can extend
their zero-shot generalization capabilities to multimodal learning through
instruction tuning. As more modalities and downstream tasks are introduced,
negative conflicts and interference may have a worse impact on performance.
While this phenomenon has been overlooked in previous work, we propose a novel
and extensible framework, called \mname, for comprehensive studies and
experimentation on multimodal learning with Multimodal Large Language Models
(MLLMs). Specifically, we combine the well-known Mixture-of-Experts (MoE) and
one of the representative PEFT techniques, \emph{i.e.,} LoRA, designing a novel
LLM-based decoder, called LoRA-MoE, for multimodal learning. The experimental
results (about 20\% improvement) have shown the effectiveness and versatility
of our design in various 2D and 3D downstream tasks. Code and corresponding
dataset will be available soon.
- Abstract(参考訳): 近年,Large Language Models (LLMs) はゼロショットの一般化能力を,命令チューニングによるマルチモーダル学習に拡張できることが実証されている。
より多くのモダリティと下流タスクが導入されると、負の衝突と干渉はパフォーマンスに悪影響を及ぼす可能性がある。
この現象は,従来の研究で見過ごされてきたが,多モーダル大規模言語モデル(MLLM)を用いた多モーダル学習の包括的研究と実験のための,新しい拡張可能なフレームワークである \mname を提案する。
具体的には、よく知られたMixture-of-Experts (MoE) と代表的PEFT技術の1つである \emph{i.e.} LoRA を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダLoRA-MoEを設計する。
実験結果(約20-%改善)は,様々な2次元および3次元下流タスクにおける設計の有効性と汎用性を示した。
コードと対応するデータセットが近く提供される。
関連論文リスト
- LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models [57.091523832149655]
本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。
私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2024-07-17T16:31:38Z) - Efficient Multimodal Large Language Models: A Survey [60.7614299984182]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な性能を示す。
モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。
本調査は,効率的なMLLMの現状を包括的かつ体系的に概観するものである。
論文 参考訳(メタデータ) (2024-05-17T12:37:10Z) - The Curious Case of Nonverbal Abstract Reasoning with Multi-Modal Large Language Models [19.213774611556]
MLLM(Multi-modal large language model)は、言語情報と視覚情報を統合したものである。
MLLMの革新的展望にもかかわらず、推論能力に対する我々の理解は限られている。
本研究では,オープンソースおよびクローズドソースMLLMの非言語的抽象的推論能力を評価する。
論文 参考訳(メタデータ) (2024-01-22T16:57:05Z) - OneLLM: One Framework to Align All Modalities with Language [90.14915575477197]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。