論文の概要: mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video
- arxiv url: http://arxiv.org/abs/2302.00402v1
- Date: Wed, 1 Feb 2023 12:40:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 13:08:44.742327
- Title: mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video
- Title(参考訳): mPLUG-2: テキスト, 画像, ビデオ間のモジュール化マルチモーダルファンデーションモデル
- Authors: Haiyang Xu, Qinghao Ye, Ming Yan, Yaya Shi, Jiabo Ye, Yuanhong Xu,
Chenliang Li, Bin Bi, Qi Qian, Wei Wang, Guohai Xu, Ji Zhang, Songfang Huang,
Fei Huang, Jingren Zhou
- Abstract要約: mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
- 参考スコア(独自算出の注目度): 89.19867891570945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed a big convergence of language, vision, and
multi-modal pretraining. In this work, we present mPLUG-2, a new unified
paradigm with modularized design for multi-modal pretraining, which can benefit
from modality collaboration while addressing the problem of modality
entanglement. In contrast to predominant paradigms of solely relying on
sequence-to-sequence generation or encoder-based instance discrimination,
mPLUG-2 introduces a multi-module composition network by sharing common
universal modules for modality collaboration and disentangling different
modality modules to deal with modality entanglement. It is flexible to select
different modules for different understanding and generation tasks across all
modalities including text, image, and video. Empirical study shows that mPLUG-2
achieves state-of-the-art or competitive results on a broad range of over 30
downstream tasks, spanning multi-modal tasks of image-text and video-text
understanding and generation, and uni-modal tasks of text-only, image-only, and
video-only understanding. Notably, mPLUG-2 shows new state-of-the-art results
of 48.0 top-1 accuracy and 80.3 CIDEr on the challenging MSRVTT video QA and
video caption tasks with a far smaller model size and data scale. It also
demonstrates strong zero-shot transferability on vision-language and
video-language tasks. Code and models will be released in
https://github.com/alibaba/AliceMind.
- Abstract(参考訳): 近年、言語、ビジョン、マルチモーダル・プレトレーニングの大きな収束が見られた。
本研究では,モダリティの絡み合い問題に対処しつつモダリティ協調のメリットを享受できるマルチモーダルプリトレーニングのためのモジュール化設計を備えた,新しい統一パラダイムであるmplug-2を提案する。
シーケンスツーシーケンス生成やエンコーダベースのインスタンス識別のみに依存する主流パラダイムとは対照的に、mplug-2では、モダリティ協調のための共通普遍モジュールを共有し、モダリティの絡み合いに対処するために異なるモダリティモジュールを分離することで、マルチモジュール合成ネットワークを導入している。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解と生成タスクのために、異なるモジュールを選択することは柔軟である。
実証研究では、mplug-2は30以上のダウンストリームタスクにおいて最先端または競争的な結果を達成し、画像テキストとビデオテキストの理解と生成のマルチモーダルタスクと、テキストのみ、画像のみ、ビデオのみの理解のユニモーダルタスクにまたがる。
特に、mPLUG-2は、MSRVTTビデオQAおよびビデオキャプションタスクにおいて、48.0のトップ-1精度と80.3CIDErの新たな最先端結果を示し、モデルサイズとデータスケールがはるかに小さい。
また、視覚言語およびビデオ言語タスクに強いゼロショット転送性を示す。
コードとモデルはhttps://github.com/alibaba/alicemindでリリースされる。
関連論文リスト
- Everything is a Video: Unifying Modalities through Next-Frame Prediction [5.720266474212221]
自然言語処理(NLP)を超えて,タスク再構成の概念を多モーダル学習に拡張する新しいフレームワークを提案する。
本稿では,多様なマルチモーダルタスクを統一した次フレーム予測問題に再構成することを提案する。
提案手法は,テキスト・トゥ・テキスト,画像・トゥ・テキスト,ビデオ・トゥ・ビデオ,ビデオ・トゥ・テキスト,音声・トゥ・テキストなど,様々なタスクで評価される。
論文 参考訳(メタデータ) (2024-11-15T12:59:37Z) - MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。
MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文 参考訳(メタデータ) (2024-09-26T09:57:16Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision,
Language, Audio, and Action [46.76487873983082]
Unified-IO 2は、画像、テキスト、オーディオ、アクションの理解と生成が可能な最初の自己回帰型マルチモーダルモデルである。
我々は、多様な情報源から、大規模なマルチモーダル事前学習コーパスをスクラッチからトレーニングする。
単一の統一モデルにより、Unified-IO 2はGRITベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T17:57:06Z) - mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with
Modality Collaboration [74.31268379055201]
mPLUG-Owl2は多目的なマルチモーダル言語モデルである。
効果的にモダリティのコラボレーションを活用して、テキストとマルチモーダルの両方のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-11-07T14:21:29Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。