論文の概要: mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with
Modality Collaboration
- arxiv url: http://arxiv.org/abs/2311.04257v2
- Date: Thu, 9 Nov 2023 01:56:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 17:16:08.701416
- Title: mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with
Modality Collaboration
- Title(参考訳): mPLUG-Owl2: Modality Collaborationによる多モード大言語モデルの革新
- Authors: Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Anwen Hu, Haowei Liu, Qi
Qian, Ji Zhang, Fei Huang, Jingren Zhou
- Abstract要約: mPLUG-Owl2は多目的なマルチモーダル言語モデルである。
効果的にモダリティのコラボレーションを活用して、テキストとマルチモーダルの両方のパフォーマンスを改善する。
- 参考スコア(独自算出の注目度): 74.31268379055201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal Large Language Models (MLLMs) have demonstrated impressive
instruction abilities across various open-ended tasks. However, previous
methods primarily focus on enhancing multi-modal capabilities. In this work, we
introduce a versatile multi-modal large language model, mPLUG-Owl2, which
effectively leverages modality collaboration to improve performance in both
text and multi-modal tasks. mPLUG-Owl2 utilizes a modularized network design,
with the language decoder acting as a universal interface for managing
different modalities. Specifically, mPLUG-Owl2 incorporates shared functional
modules to facilitate modality collaboration and introduces a modality-adaptive
module that preserves modality-specific features. Extensive experiments reveal
that mPLUG-Owl2 is capable of generalizing both text tasks and multi-modal
tasks and achieving state-of-the-art performances with a single generic model.
Notably, mPLUG-Owl2 is the first MLLM model that demonstrates the modality
collaboration phenomenon in both pure-text and multi-modal scenarios, setting a
pioneering path in the development of future multi-modal foundation models.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)は、様々なオープンエンドタスクにまたがる印象的な命令能力を示す。
しかし、従来の手法は主にマルチモーダル機能の拡張に重点を置いている。
本研究では,マルチモーダルな大規模言語モデルであるmplug-owl2を導入し,モダリティ協調を効果的に活用し,テキストタスクとマルチモーダルタスクの両方のパフォーマンスを向上させる。
mPLUG-Owl2はモジュール化されたネットワーク設計を採用し、言語デコーダは様々なモダリティを管理する汎用インターフェースとして機能する。
具体的には、mPLUG-Owl2は共有機能モジュールを組み込んでモダリティの協調を容易にし、モダリティ固有の特徴を保存するモダリティ適応モジュールを導入する。
mPLUG-Owl2は、テキストタスクとマルチモーダルタスクの両方を一般化し、単一のジェネリックモデルで最先端のパフォーマンスを達成することができる。
特に、mPLUG-Owl2は、純粋なテキストとマルチモーダルの両方のシナリオにおいて、モダリティ協調現象を示す最初のMLLMモデルであり、将来のマルチモーダル基盤モデルの開発における先駆的な経路を定めている。
関連論文リスト
- Ocean-omni: To Understand the World with Omni-modality [28.306965534325904]
Ocean-omniは、最初のオープンソース 7B Multimodal Large Language Model (MLLM) である。
世界初のオープンソース7Bマルチモーダル大言語モデル(MLLM)であるOcean-omniを紹介する。
論文 参考訳(メタデータ) (2024-10-11T06:44:31Z) - mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models [71.40705814904898]
本稿では,多目的なマルチモーダル大言語モデルであるmPLUG-Owl3を提案する。
具体的には、視覚と言語を共通の言語誘導意味空間に効率的に統合する新しいハイパーアテンションブロックを提案する。
論文 参考訳(メタデータ) (2024-08-09T03:25:42Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples [63.78384552789171]
本稿では,新しいマルチモーダル微調整パラダイムであるMMICTを紹介する。
M-Hub(Multi-Modal Hub)は,異なる入力や目的に応じて様々なマルチモーダル特徴をキャプチャするモジュールである。
M-Hubに基づいてMMICTは、MM-LLMがコンテキスト内視覚誘導されたテキスト特徴から学習し、その後、テキスト誘導された視覚特徴に基づいて条件付き出力を生成する。
論文 参考訳(メタデータ) (2023-12-11T13:11:04Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。
簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-02T07:15:10Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。