論文の概要: MANTIS: Interleaved Multi-Image Instruction Tuning
- arxiv url: http://arxiv.org/abs/2405.01483v3
- Date: Fri, 15 Nov 2024 06:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:36:47.107451
- Title: MANTIS: Interleaved Multi-Image Instruction Tuning
- Title(参考訳): MANTIS: インターリーブされたマルチイメージインストラクションチューニング
- Authors: Dongfu Jiang, Xuan He, Huaye Zeng, Cong Wei, Max Ku, Qian Liu, Wenhu Chen,
- Abstract要約: 我々は,学術レベルのリソースを用いた指導チューニングにより,強力なマルチイメージLMMを構築することを目指している。
Mantis-Instructには、Mantisモデルのファミリーをトレーニングするための721Kのマルチイメージインストラクションデータが含まれている。
Mantis-Idefics2は、すべてのマルチイメージベンチマークでSoTA結果を達成し、最強のマルチイメージベースラインであるIdefics2-8Bを平均13の絶対点で破ることができる。
- 参考スコア(独自算出の注目度): 43.91842692263417
- License:
- Abstract: Large multimodal models (LMMs) have shown great results in single-image vision language tasks. However, their abilities to solve multi-image visual language tasks is yet to be improved. The existing LMMs like OpenFlamingo, Emu2, and Idefics gain their multi-image ability through pre-training on hundreds of millions of noisy interleaved image-text data from the web, which is neither efficient nor effective. In this paper, we aim to build strong multi-image LMMs via instruction tuning with academic-level resources. Therefore, we meticulously construct Mantis-Instruct containing 721K multi-image instruction data to train a family of Mantis models. The instruction tuning empowers Mantis with different multi-image skills like co-reference, comparison, reasoning, and temporal understanding. We evaluate Mantis on 8 multi-image benchmarks and 6 single-image benchmarks. Mantis-Idefics2 can achieve SoTA results on all the multi-image benchmarks and beat the strongest multi-image baseline, Idefics2-8B by an average of 13 absolute points. Notably, Idefics2-8B was pre-trained on 140M interleaved multi-image data, which is 200x larger than Mantis-Instruct. We observe that Mantis performs equivalently well on the held-in and held-out benchmarks, which shows its generalization ability. We further evaluate Mantis on single-image benchmarks and demonstrate that Mantis also maintains a strong single-image performance on par with CogVLM and Emu2. Our results show that multi-image abilities are not necessarily gained through massive pre-training, instead, they can be gained by low-cost instruction tuning. The training and evaluation of Mantis has paved the road for future work to improve LMMs' multi-image abilities.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、単一イメージの視覚言語タスクにおいて大きな成果を上げている。
しかし、マルチイメージの視覚言語タスクを解く能力はまだ改善されていない。
OpenFlamingoやEmu2、Ideficsといった既存のLMMは、数億ものノイズの多いインターリーブ画像テキストデータをWebから事前トレーニングすることで、マルチイメージの能力を得る。
本稿では,学術レベルのリソースを用いた指導指導により,強力なマルチイメージLMMを構築することを目的とする。
そこで我々は,マンティスモデル群を訓練するために,721Kのマルチイメージ命令データを含むマンティス・インストラクトを慎重に構築する。
インストラクションチューニングは、コレファレンス、比較、推論、時間的理解といった異なるマルチイメージのスキルでマンティスに権限を与える。
Mantis on 8 multi-image benchmarks and 6 single-image benchmarks。
Mantis-Idefics2は、すべてのマルチイメージベンチマークでSoTA結果を達成し、最強のマルチイメージベースラインであるIdefics2-8Bを平均13の絶対点で破ることができる。
特に、Idefics2-8BはMantis-Instructの200倍の140Mインターリーブ多重画像データで事前訓練された。
We observed that Mantis are wellly well on the hold-in and hold-out benchmarks which showed its generalization ability。
さらに,マンティスをシングルイメージのベンチマークで評価し,マンティスがCogVLMやEmu2と同等の強いシングルイメージ性能を維持していることを示す。
この結果から,マルチイメージ能力は大規模な事前学習によって必ずしも得られず,低コストな指導チューニングによって得られることが示唆された。
マンティスの訓練と評価は、LMMのマルチイメージ能力を改善するための今後の取り組みの道を開いた。
関連論文リスト
- Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - ProVision: Programmatically Scaling Vision-centric Instruction Data for Multimodal Language Models [103.25208095165486]
既存のプラクティスは命令データを生成するために、強力だが高価な言語モデル(LLM)やマルチモーダル言語モデル(MLM)に依存している。
本稿では,シーングラフを画像のシンボル表現として利用し,視覚中心の命令データを体系的に合成するプログラムを提案する。
提案手法は,データ生成プロセスの解釈可能性と制御性を保証し,実際の精度を維持しながら効率よくスケールする。
論文 参考訳(メタデータ) (2024-12-09T21:44:02Z) - Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model [41.103167385290085]
大規模な抽象画像と視覚的推論命令を合成するために,大規模言語モデルとそのコード機能を利用したマルチモーダル自己インストラクトを設計する。
我々のベンチマークは単純な線と幾何学的要素で構築されており、最も先進的なLMMの欠点を明らかにする。
合成データの質を検証するため,62,476の合成チャート,表,道路地図の指示を用いてLMMを微調整する。
論文 参考訳(メタデータ) (2024-07-09T17:18:27Z) - MOFI: Learning Image Representations from Noisy Entity Annotated Images [47.6984817573981]
ノイズのあるエンティティアノテート画像から画像表現を学習するための新しい視覚基盤モデルMOFIを提案する。
ノイズの多い画像とテキストのペアから画像にエンティティラベルを自動的に割り当てる手法を提案する。
提案手法では、アルトテキストからエンティティを抽出するために名前付きエンティティ認識モデルを使用し、CLIPモデルを用いて、ペア画像のラベルとして正しいエンティティを選択する。
論文 参考訳(メタデータ) (2023-06-13T17:51:18Z) - MULLER: Multilayer Laplacian Resizer for Vision [16.67232499096539]
MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。
MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
論文 参考訳(メタデータ) (2023-04-06T04:39:21Z) - MuMIC -- Multimodal Embedding for Multi-label Image Classification with
Tempered Sigmoid [1.1452732046200158]
マルチモーダル・ラーニング・アプローチは画像表現とシングルラベル画像分類において,近年顕著な成果を上げている。
硬度認識型シグモノイドをベースとしたバイナリクロスエントロピー損失関数を用いたマルチモーダルマルチラベル画像分類(MuMIC)フレームワークを提案する。
MuMICは高い分類性能を提供し、現実世界のノイズデータを処理し、ゼロショット予測をサポートし、ドメイン固有の画像埋め込みを生成する。
論文 参考訳(メタデータ) (2022-11-02T17:29:35Z) - Memory Efficient Meta-Learning with Large Images [62.70515410249566]
数ショットの分類に対するメタ学習アプローチは、新しいタスクを学ぶために、ほんの数ステップの最適化やシングルフォワードパスを必要とするテスト時に計算的に効率的である。
この制限は、最大1000のイメージを含むタスクの全体サポートセットが、最適化ステップを取る前に処理されなければならないために生じる。
本稿では,1つのGPU上の大容量画像からなる大規模タスクのメタトレーニングを可能にする,汎用的でメモリ効率の良いエピソード・トレーニング手法であるLITEを提案する。
論文 参考訳(メタデータ) (2021-07-02T14:37:13Z) - Dual Manifold Adversarial Robustness: Defense against Lp and non-Lp
Adversarial Attacks [154.31827097264264]
敵の訓練は、境界Lpノルムを持つ攻撃脅威モデルに対する一般的な防衛戦略である。
本稿では,2次元マニフォールド逆行訓練(DMAT)を提案する。
我々のDMATは、通常の画像の性能を改善し、Lp攻撃に対する標準的な敵の訓練と同等の堅牢性を達成する。
論文 参考訳(メタデータ) (2020-09-05T06:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。