論文の概要: MANTIS: Interleaved Multi-Image Instruction Tuning
- arxiv url: http://arxiv.org/abs/2405.01483v3
- Date: Fri, 15 Nov 2024 06:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:36:47.107451
- Title: MANTIS: Interleaved Multi-Image Instruction Tuning
- Title(参考訳): MANTIS: インターリーブされたマルチイメージインストラクションチューニング
- Authors: Dongfu Jiang, Xuan He, Huaye Zeng, Cong Wei, Max Ku, Qian Liu, Wenhu Chen,
- Abstract要約: 我々は,学術レベルのリソースを用いた指導チューニングにより,強力なマルチイメージLMMを構築することを目指している。
Mantis-Instructには、Mantisモデルのファミリーをトレーニングするための721Kのマルチイメージインストラクションデータが含まれている。
Mantis-Idefics2は、すべてのマルチイメージベンチマークでSoTA結果を達成し、最強のマルチイメージベースラインであるIdefics2-8Bを平均13の絶対点で破ることができる。
- 参考スコア(独自算出の注目度): 43.91842692263417
- License:
- Abstract: Large multimodal models (LMMs) have shown great results in single-image vision language tasks. However, their abilities to solve multi-image visual language tasks is yet to be improved. The existing LMMs like OpenFlamingo, Emu2, and Idefics gain their multi-image ability through pre-training on hundreds of millions of noisy interleaved image-text data from the web, which is neither efficient nor effective. In this paper, we aim to build strong multi-image LMMs via instruction tuning with academic-level resources. Therefore, we meticulously construct Mantis-Instruct containing 721K multi-image instruction data to train a family of Mantis models. The instruction tuning empowers Mantis with different multi-image skills like co-reference, comparison, reasoning, and temporal understanding. We evaluate Mantis on 8 multi-image benchmarks and 6 single-image benchmarks. Mantis-Idefics2 can achieve SoTA results on all the multi-image benchmarks and beat the strongest multi-image baseline, Idefics2-8B by an average of 13 absolute points. Notably, Idefics2-8B was pre-trained on 140M interleaved multi-image data, which is 200x larger than Mantis-Instruct. We observe that Mantis performs equivalently well on the held-in and held-out benchmarks, which shows its generalization ability. We further evaluate Mantis on single-image benchmarks and demonstrate that Mantis also maintains a strong single-image performance on par with CogVLM and Emu2. Our results show that multi-image abilities are not necessarily gained through massive pre-training, instead, they can be gained by low-cost instruction tuning. The training and evaluation of Mantis has paved the road for future work to improve LMMs' multi-image abilities.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、単一イメージの視覚言語タスクにおいて大きな成果を上げている。
しかし、マルチイメージの視覚言語タスクを解く能力はまだ改善されていない。
OpenFlamingoやEmu2、Ideficsといった既存のLMMは、数億ものノイズの多いインターリーブ画像テキストデータをWebから事前トレーニングすることで、マルチイメージの能力を得る。
本稿では,学術レベルのリソースを用いた指導指導により,強力なマルチイメージLMMを構築することを目的とする。
そこで我々は,マンティスモデル群を訓練するために,721Kのマルチイメージ命令データを含むマンティス・インストラクトを慎重に構築する。
インストラクションチューニングは、コレファレンス、比較、推論、時間的理解といった異なるマルチイメージのスキルでマンティスに権限を与える。
Mantis on 8 multi-image benchmarks and 6 single-image benchmarks。
Mantis-Idefics2は、すべてのマルチイメージベンチマークでSoTA結果を達成し、最強のマルチイメージベースラインであるIdefics2-8Bを平均13の絶対点で破ることができる。
特に、Idefics2-8BはMantis-Instructの200倍の140Mインターリーブ多重画像データで事前訓練された。
We observed that Mantis are wellly well on the hold-in and hold-out benchmarks which showed its generalization ability。
さらに,マンティスをシングルイメージのベンチマークで評価し,マンティスがCogVLMやEmu2と同等の強いシングルイメージ性能を維持していることを示す。
この結果から,マルチイメージ能力は大規模な事前学習によって必ずしも得られず,低コストな指導チューニングによって得られることが示唆された。
マンティスの訓練と評価は、LMMのマルチイメージ能力を改善するための今後の取り組みの道を開いた。
関連論文リスト
- MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model [41.103167385290085]
大規模な抽象画像と視覚的推論命令を合成するために,大規模言語モデルとそのコード機能を利用したマルチモーダル自己インストラクトを設計する。
我々のベンチマークは単純な線と幾何学的要素で構築されており、最も先進的なLMMの欠点を明らかにする。
合成データの質を検証するため,62,476の合成チャート,表,道路地図の指示を用いてLMMを微調整する。
論文 参考訳(メタデータ) (2024-07-09T17:18:27Z) - MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding [150.28164854480912]
マルチモーダルLLMの堅牢なマルチイメージ理解機能に着目したベンチマークであるMuirBenchを紹介する。
MuirBenchは、12の多様なマルチイメージタスク(例えば、シーン理解、順序付け)で構成されており、10のカテゴリのマルチイメージ関係を含んでいる。
GPT-4oやGemini Proのような最高のパフォーマンスモデルでさえ、ムアベンチを解くことは困難であり、精度は68.0%、49.3%である。
論文 参考訳(メタデータ) (2024-06-13T17:59:52Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - MULLER: Multilayer Laplacian Resizer for Vision [16.67232499096539]
MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。
MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
論文 参考訳(メタデータ) (2023-04-06T04:39:21Z) - Memory Efficient Meta-Learning with Large Images [62.70515410249566]
数ショットの分類に対するメタ学習アプローチは、新しいタスクを学ぶために、ほんの数ステップの最適化やシングルフォワードパスを必要とするテスト時に計算的に効率的である。
この制限は、最大1000のイメージを含むタスクの全体サポートセットが、最適化ステップを取る前に処理されなければならないために生じる。
本稿では,1つのGPU上の大容量画像からなる大規模タスクのメタトレーニングを可能にする,汎用的でメモリ効率の良いエピソード・トレーニング手法であるLITEを提案する。
論文 参考訳(メタデータ) (2021-07-02T14:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。