論文の概要: MANTIS: Interleaved Multi-Image Instruction Tuning
- arxiv url: http://arxiv.org/abs/2405.01483v2
- Date: Thu, 23 May 2024 18:57:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 20:17:43.092604
- Title: MANTIS: Interleaved Multi-Image Instruction Tuning
- Title(参考訳): MANTIS: インターリーブされたマルチイメージインストラクションチューニング
- Authors: Dongfu Jiang, Xuan He, Huaye Zeng, Cong Wei, Max Ku, Qian Liu, Wenhu Chen,
- Abstract要約: 我々は,学術レベルのリソースを用いた指導チューニングにより,強力なマルチイメージLMMを構築することを目指している。
モデルマンティスのファミリーを訓練するために、721Kのマルチイメージ命令データを含むMantis-Instructを構築した。
Mantis-SigLIPは、すべてのマルチイメージベンチマークでSoTA結果を達成し、最強のマルチイメージベースラインであるIdefics2-8Bを平均11の絶対点で破ることができる。
- 参考スコア(独自算出の注目度): 43.91842692263417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large multimodal models (LMMs) have shown great results in single-image vision language tasks. However, their abilities to solve multi-image visual language tasks is yet to be improved. The existing LMMs like OpenFlamingo, Emu2, Idefics gain their multi-image ability through pre-training on hundreds of millions of noisy interleaved image-text data from the web, which is neither efficient nor effective. In this paper, we aim to build strong multi-image LMMs via instruction tuning with academic-level resources. Therefore, we meticulously construct Mantis-Instruct containing 721K multi-image instruction data to train a family of models Mantis. The instruction tuning empowers Mantis with different multi-image skills like co-reference, comparison, reasoning, and temporal understanding. We evaluate Mantis on five multi-image benchmarks and seven single-image benchmarks. Mantis-SigLIP can achieve SoTA results on all the multi-image benchmarks and beat the strongest multi-image baseline, Idefics2-8B by an average of 11 absolute points. Notably, Idefics2-8B was pre-trained on 140M interleaved multi-image data, which is 200x larger than Mantis-Instruct. We observe that Mantis performs equivalently well on the held-in and held-out benchmarks, which shows its generalization ability. Notably, we found that Mantis can even match the performance of GPT-4V on multi-image benchmarks. We further evaluate Mantis on single-image benchmarks and demonstrate that Mantis also maintains a strong single-image performance on par with CogVLM and Emu2. Our results show that multi-image abilities are not necessarily gained through massive pre-training, instead, it can be gained by the low-cost instruction tuning. Our work provides new perspectives on how to improve LMMs' multi-image abilities.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、単一イメージの視覚言語タスクにおいて大きな成果を上げている。
しかし、マルチイメージの視覚言語タスクを解く能力はまだ改善されていない。
OpenFlamingo、Emu2、Ideficsといった既存のLMMは、数億ものノイズの多いインターリーブ画像テキストデータをWebから事前トレーニングすることで、マルチイメージの能力を得る。
本稿では,学術レベルのリソースを用いた指導指導により,強力なマルチイメージLMMを構築することを目的とする。
そこで我々は,モデルマンティスのファミリーを訓練するために,721Kのマルチイメージ命令データを含むマンティス・インストラクトを慎重に構築する。
インストラクションチューニングは、コレファレンス、比較、推論、時間的理解といった異なるマルチイメージのスキルでマンティスに権限を与える。
5つのマルチイメージベンチマークと7つのシングルイメージベンチマークでMantisを評価する。
Mantis-SigLIPは、すべてのマルチイメージベンチマークでSoTA結果を達成し、最強のマルチイメージベースラインであるIdefics2-8Bを平均11の絶対点で破ることができる。
特に、Idefics2-8BはMantis-Instructの200倍の140Mインターリーブ多重画像データで事前訓練された。
We observed that Mantis are wellly well on the hold-in and hold-out benchmarks which showed its generalization ability。
特に,マルチイメージベンチマークにおいて,GPT-4Vの性能にマッチできることがわかった。
さらに,マンティスをシングルイメージのベンチマークで評価し,マンティスがCogVLMやEmu2と同等の強いシングルイメージ性能を維持していることを示す。
この結果から,マルチイメージ能力は大規模な事前学習によって必ずしも得られず,低コストな指導チューニングによって得られることが示唆された。
我々の研究は、LMMのマルチイメージ能力を改善するための新しい視点を提供する。
関連論文リスト
- Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model [41.103167385290085]
大規模な抽象画像と視覚的推論命令を合成するために,大規模言語モデルとそのコード機能を利用したマルチモーダル自己インストラクトを設計する。
我々のベンチマークは単純な線と幾何学的要素で構築されており、最も先進的なLMMの欠点を明らかにする。
合成データの質を検証するため,62,476の合成チャート,表,道路地図の指示を用いてLMMを微調整する。
論文 参考訳(メタデータ) (2024-07-09T17:18:27Z) - MOFI: Learning Image Representations from Noisy Entity Annotated Images [47.6984817573981]
ノイズのあるエンティティアノテート画像から画像表現を学習するための新しい視覚基盤モデルMOFIを提案する。
ノイズの多い画像とテキストのペアから画像にエンティティラベルを自動的に割り当てる手法を提案する。
提案手法では、アルトテキストからエンティティを抽出するために名前付きエンティティ認識モデルを使用し、CLIPモデルを用いて、ペア画像のラベルとして正しいエンティティを選択する。
論文 参考訳(メタデータ) (2023-06-13T17:51:18Z) - MULLER: Multilayer Laplacian Resizer for Vision [16.67232499096539]
MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。
MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
論文 参考訳(メタデータ) (2023-04-06T04:39:21Z) - MuMIC -- Multimodal Embedding for Multi-label Image Classification with
Tempered Sigmoid [1.1452732046200158]
マルチモーダル・ラーニング・アプローチは画像表現とシングルラベル画像分類において,近年顕著な成果を上げている。
硬度認識型シグモノイドをベースとしたバイナリクロスエントロピー損失関数を用いたマルチモーダルマルチラベル画像分類(MuMIC)フレームワークを提案する。
MuMICは高い分類性能を提供し、現実世界のノイズデータを処理し、ゼロショット予測をサポートし、ドメイン固有の画像埋め込みを生成する。
論文 参考訳(メタデータ) (2022-11-02T17:29:35Z) - Unifying Architectures, Tasks, and Modalities Through a Simple
Sequence-to-Sequence Learning Framework [83.82026345508334]
モーダル性(クロスモダリティ、ビジョン、言語など)とタスク(画像生成、視覚接地、画像キャプション、画像分類、テキスト生成など)を統一する統合マルチモーダル事前訓練モデルOFAを提案する。
OFAは、イメージキャプション(COCO test CIDEr: 149.6)、テキスト・ツー・イメージ生成(COCO test FID: 10.5)、VQA(test-std encoder acc.: 80.02)、SNLI-VE(test acc.: 90)など、一連のマルチモーダルタスクにおける新しい最先端処理を実現している。
論文 参考訳(メタデータ) (2022-02-07T10:38:21Z) - Memory Efficient Meta-Learning with Large Images [62.70515410249566]
数ショットの分類に対するメタ学習アプローチは、新しいタスクを学ぶために、ほんの数ステップの最適化やシングルフォワードパスを必要とするテスト時に計算的に効率的である。
この制限は、最大1000のイメージを含むタスクの全体サポートセットが、最適化ステップを取る前に処理されなければならないために生じる。
本稿では,1つのGPU上の大容量画像からなる大規模タスクのメタトレーニングを可能にする,汎用的でメモリ効率の良いエピソード・トレーニング手法であるLITEを提案する。
論文 参考訳(メタデータ) (2021-07-02T14:37:13Z) - Dual Manifold Adversarial Robustness: Defense against Lp and non-Lp
Adversarial Attacks [154.31827097264264]
敵の訓練は、境界Lpノルムを持つ攻撃脅威モデルに対する一般的な防衛戦略である。
本稿では,2次元マニフォールド逆行訓練(DMAT)を提案する。
我々のDMATは、通常の画像の性能を改善し、Lp攻撃に対する標準的な敵の訓練と同等の堅牢性を達成する。
論文 参考訳(メタデータ) (2020-09-05T06:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。