論文の概要: Generative Multimodal Models are In-Context Learners
- arxiv url: http://arxiv.org/abs/2312.13286v2
- Date: Wed, 8 May 2024 03:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 18:50:56.609865
- Title: Generative Multimodal Models are In-Context Learners
- Title(参考訳): 生成的マルチモーダルモデルは文脈学習者である
- Authors: Quan Sun, Yufeng Cui, Xiaosong Zhang, Fan Zhang, Qiying Yu, Zhengxiong Luo, Yueze Wang, Yongming Rao, Jingjing Liu, Tiejun Huang, Xinlong Wang,
- Abstract要約: 我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
- 参考スコア(独自算出の注目度): 60.50927925426832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The human ability to easily solve multimodal tasks in context (i.e., with only a few demonstrations or simple instructions), is what current multimodal systems have largely struggled to imitate. In this work, we demonstrate that the task-agnostic in-context learning capabilities of large multimodal models can be significantly enhanced by effective scaling-up. We introduce Emu2, a generative multimodal model with 37 billion parameters, trained on large-scale multimodal sequences with a unified autoregressive objective. Emu2 exhibits strong multimodal in-context learning abilities, even emerging to solve tasks that require on-the-fly reasoning, such as visual prompting and object-grounded generation. The model sets a new record on multiple multimodal understanding tasks in few-shot settings. When instruction-tuned to follow specific instructions, Emu2 further achieves new state-of-the-art on challenging tasks such as question answering benchmarks for large multimodal models and open-ended subject-driven generation. These achievements demonstrate that Emu2 can serve as a base model and general-purpose interface for a wide range of multimodal tasks. Code and models are publicly available to facilitate future research.
- Abstract(参考訳): 文脈において容易にマルチモーダルタスクを解く能力(デモや簡単な指示しか持たない)は、現在のマルチモーダルシステムは模倣に苦戦している。
本研究では,大規模マルチモーダルモデルのタスク非依存型インコンテキスト学習能力が,効率的なスケールアップによって大幅に向上できることを実証する。
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介する。
Emu2は、ビジュアルプロンプトやオブジェクトグラウンドドジェネレーションのような、オンザフライ推論を必要とするタスクを解決するために出現する、強いマルチモーダルなインコンテキスト学習能力を示す。
このモデルは、複数のマルチモーダル理解タスクに、数ショット設定で新しいレコードを設定する。
命令が特定の命令に従うように調整された場合、Emu2はさらに、大規模なマルチモーダルモデルの質問応答ベンチマークや、オープンな対象駆動生成といった課題に対して、新しい最先端のタスクを達成している。
これらの成果は、Emu2が幅広いマルチモーダルタスクのベースモデルおよび汎用インターフェースとして機能できることを実証している。
コードとモデルは、将来の研究を促進するために公開されている。
関連論文リスト
- MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou [23.818456863262494]
異なる下流モデルに対して、専門的で訓練可能なマルチモーダル情報をカスタマイズするための定量的なマルチモーダルフレームワークを導入する。
ダウンストリームタスクの利用における2つの難題に着想を得て、異なるダウンストリームモデルに対して、専門的で訓練可能なマルチモーダル情報をカスタマイズする定量的なマルチモーダルフレームワークを導入する。
論文 参考訳(メタデータ) (2024-11-18T17:08:35Z) - Towards Multi-Modal Mastery: A 4.5B Parameter Truly Multi-Modal Small Language Model [0.0]
本稿では,複数入力と出力のモダリティを扱える新しい4.5Bパラメータ小言語モデルを提案する。
モデルのサイズは小さいが、様々なタスクにおける最先端のパフォーマンスをほぼ達成している。
論文 参考訳(メタデータ) (2024-11-08T17:15:17Z) - Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond [51.141270065306514]
このチュートリアルは、マルチモーダルAIを活用するための知識とスキルを研究者、実践者、新参者に提供することを目的としている。
最新のマルチモーダルデータセットと事前訓練されたモデル、例えばビジョンや言語以外のものについても取り上げる。
ハンズオン実験室は、最先端のマルチモーダルモデルで実践的な経験を提供する。
論文 参考訳(メタデータ) (2024-10-08T01:41:56Z) - IWISDM: Assessing instruction following in multimodal models at scale [1.2320972303448239]
我々は,視覚言語タスクの無制限な配列を生成するために,指示された仮想VISual Decision Making (iWISDM)環境を紹介する。
iWISDMを用いて,様々な複雑性レベルにわたる視覚課題に追従する命令の3つの異なるベンチマークをコンパイルした。
本研究は,既存のマルチモーダルモデルと創発的マルチモーダルモデルの両方の命令順守性を評価するための頑健なベンチマークとしてiWISDMを確立した。
論文 参考訳(メタデータ) (2024-06-20T14:09:54Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with
Modality Collaboration [74.31268379055201]
mPLUG-Owl2は多目的なマルチモーダル言語モデルである。
効果的にモダリティのコラボレーションを活用して、テキストとマルチモーダルの両方のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-11-07T14:21:29Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。