論文の概要: Otter: A Multi-Modal Model with In-Context Instruction Tuning
- arxiv url: http://arxiv.org/abs/2305.03726v2
- Date: Mon, 28 Jul 2025 05:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:55.060003
- Title: Otter: A Multi-Modal Model with In-Context Instruction Tuning
- Title(参考訳): Otter: インテクストインストラクションチューニングを備えたマルチモーダルモデル
- Authors: Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Fanyi Pu, Joshua Adrian Cahyono, Jingkang Yang, Ziwei Liu,
- Abstract要約: textbfOtterモデルを導入し、テキストとビジュアルのインテキストの両方の例をインストラクションチューニングに活用する。
Otterはマルチモーダル入力をシームレスに処理し、テキスト、複数画像、動的ビデオコンテンツなどのモダリティをサポートする。
我々は,300万以上のマルチモーダル命令応答対を含むtextbfMIMIC-ITデータセットを提案する。
- 参考スコア(独自算出の注目度): 53.86022923017274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Large Multimodal Models (LMMs) have unveiled great potential as visual assistants. However, most existing works focus on responding to individual instructions or using previous dialogues for contextual understanding. There is little discussion on employing both images and text as in-context examples to enhance the instruction following capability. To bridge this gap, we introduce the \textbf{Otter} model to leverage both textual and visual in-context examples for instruction tuning. Specifically, Otter builds upon Flamingo with Perceiver architecture, and has been instruction tuned for general purpose multi-modal assistant. Otter seamlessly processes multi-modal inputs, supporting modalities including text, multiple images, and dynamic video content. To support the training of Otter, we present the \textbf{MIMIC-IT} (\textbf{M}ult\textbf{I}-\textbf{M}odal \textbf{I}n-\textbf{C}ontext \textbf{I}nstruction \textbf{T}uning) dataset, which encompasses over 3 million multi-modal instruction-response pairs, including approximately 2.2 million unique instructions across a broad spectrum of images and videos. MIMIC-IT has been carefully curated to feature a diverse array of in-context examples for each entry. Comprehensive evaluations suggest that instruction tuning with these in-context examples substantially enhances model convergence and generalization capabilities. Notably, the extensive scenario coverage provided by the MIMIC-IT dataset empowers the Otter model to excel in tasks involving complex video and multi-image understanding.
- Abstract(参考訳): 近年のLMM(Large Multimodal Models)は視覚アシスタントとして大きな可能性を秘めている。
しかし、既存のほとんどの研究は、個々の指示に反応したり、文脈理解のために以前の対話を使ったりすることに重点を置いている。
画像とテキストの両方をインコンテキストの例として用いて、命令追従機能を強化することについてはほとんど議論がない。
このギャップを埋めるために、インストラクションチューニングにテキストとビジュアルインコンテキストの両方の例を活用するために、 \textbf{Otter} モデルを導入する。
具体的には、OtterはFlamingoをPerceiverアーキテクチャで構築し、汎用マルチモーダルアシスタント用にチューニングされている。
Otterはマルチモーダル入力をシームレスに処理し、テキスト、複数画像、動的ビデオコンテンツなどのモダリティをサポートする。
Otterのトレーニングを支援するために、画像やビデオの広い範囲にまたがる約220万のユニークな命令を含む300万以上のマルチモーダル命令-レスポンスペアを含む、 \textbf{MIMIC-IT} (\textbf{M}ult\textbf{I}-\textbf{M}odal \textbf{I}n-\textbf{C}ontext \textbf{I}nstruction \textbf{I}nstruction \textbf{T}uning)データセットを示す。
MIMIC-ITは、エントリごとに様々なインコンテキストの例を特徴付けるように慎重に編集されている。
包括的評価は、これらの文脈内例による命令チューニングがモデル収束と一般化能力を大幅に向上させることを示唆している。
特に、MIMIC-ITデータセットが提供する広範なシナリオカバレッジは、Otterモデルに複雑なビデオとマルチイメージの理解を含むタスクを最適化する権限を与える。
関連論文リスト
- TÜLU 3: Pushing Frontiers in Open Language Model Post-Training [94.14908801708049]
我々は、完全にオープンな最先端の訓練後モデルであるT"ULU 3を紹介する。
T"ULU 3はLlama 3.1ベースモデルをベースにしており、Llama 3.1、Qwen 2.5、Mistral、さらにGPT-4o-mini、Claude 3.5-Haikuといったクローズドモデルにも勝っている。
論文 参考訳(メタデータ) (2024-11-22T18:44:04Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - InstructBLIP: Towards General-purpose Vision-Language Models with
Instruction Tuning [43.54069813039309]
我々は、事前訓練されたBLIP-2モデルに基づいて、視覚言語による指導のチューニングについて研究する。
InstructBLIPは、13のホールトアウトデータセットすべてにわたって、最先端のゼロショットパフォーマンスを実現する。
私たちのモデルは、個々の下流タスクに微調整された場合、最先端のパフォーマンスももたらします。
論文 参考訳(メタデータ) (2023-05-11T00:38:10Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。