Fugu-MT 論文翻訳(概要): MANTIS: Interleaved Multi-Image Instruction Tuning

論文の概要: MANTIS: Interleaved Multi-Image Instruction Tuning

arxiv url: http://arxiv.org/abs/2405.01483v3
Date: Fri, 15 Nov 2024 06:31:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.185176
Title: MANTIS: Interleaved Multi-Image Instruction Tuning
Title（参考訳）: MANTIS: インターリーブされたマルチイメージインストラクションチューニング
Authors: Dongfu Jiang, Xuan He, Huaye Zeng, Cong Wei, Max Ku, Qian Liu, Wenhu Chen,
Abstract要約: 我々は,学術レベルのリソースを用いた指導チューニングにより,強力なマルチイメージLMMを構築することを目指している。 Mantis-Instructには、Mantisモデルのファミリーをトレーニングするための721Kのマルチイメージインストラクションデータが含まれている。 Mantis-Idefics2は、すべてのマルチイメージベンチマークでSoTA結果を達成し、最強のマルチイメージベースラインであるIdefics2-8Bを平均13の絶対点で破ることができる。
参考スコア（独自算出の注目度）: 43.91842692263417
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large multimodal models (LMMs) have shown great results in single-image vision language tasks. However, their abilities to solve multi-image visual language tasks is yet to be improved. The existing LMMs like OpenFlamingo, Emu2, and Idefics gain their multi-image ability through pre-training on hundreds of millions of noisy interleaved image-text data from the web, which is neither efficient nor effective. In this paper, we aim to build strong multi-image LMMs via instruction tuning with academic-level resources. Therefore, we meticulously construct Mantis-Instruct containing 721K multi-image instruction data to train a family of Mantis models. The instruction tuning empowers Mantis with different multi-image skills like co-reference, comparison, reasoning, and temporal understanding. We evaluate Mantis on 8 multi-image benchmarks and 6 single-image benchmarks. Mantis-Idefics2 can achieve SoTA results on all the multi-image benchmarks and beat the strongest multi-image baseline, Idefics2-8B by an average of 13 absolute points. Notably, Idefics2-8B was pre-trained on 140M interleaved multi-image data, which is 200x larger than Mantis-Instruct. We observe that Mantis performs equivalently well on the held-in and held-out benchmarks, which shows its generalization ability. We further evaluate Mantis on single-image benchmarks and demonstrate that Mantis also maintains a strong single-image performance on par with CogVLM and Emu2. Our results show that multi-image abilities are not necessarily gained through massive pre-training, instead, they can be gained by low-cost instruction tuning. The training and evaluation of Mantis has paved the road for future work to improve LMMs' multi-image abilities.
Abstract（参考訳）: 大規模マルチモーダルモデル(LMM)は、単一イメージの視覚言語タスクにおいて大きな成果を上げている。しかし、マルチイメージの視覚言語タスクを解く能力はまだ改善されていない。 OpenFlamingoやEmu2、Ideficsといった既存のLMMは、数億ものノイズの多いインターリーブ画像テキストデータをWebから事前トレーニングすることで、マルチイメージの能力を得る。本稿では,学術レベルのリソースを用いた指導指導により,強力なマルチイメージLMMを構築することを目的とする。そこで我々は,マンティスモデル群を訓練するために,721Kのマルチイメージ命令データを含むマンティス・インストラクトを慎重に構築する。インストラクションチューニングは、コレファレンス、比較、推論、時間的理解といった異なるマルチイメージのスキルでマンティスに権限を与える。 Mantis on 8 multi-image benchmarks and 6 single-image benchmarks。 Mantis-Idefics2は、すべてのマルチイメージベンチマークでSoTA結果を達成し、最強のマルチイメージベースラインであるIdefics2-8Bを平均13の絶対点で破ることができる。特に、Idefics2-8BはMantis-Instructの200倍の140Mインターリーブ多重画像データで事前訓練された。 We observed that Mantis are wellly well on the hold-in and hold-out benchmarks which showed its generalization ability。さらに,マンティスをシングルイメージのベンチマークで評価し,マンティスがCogVLMやEmu2と同等の強いシングルイメージ性能を維持していることを示す。この結果から,マルチイメージ能力は大規模な事前学習によって必ずしも得られず,低コストな指導チューニングによって得られることが示唆された。マンティスの訓練と評価は、LMMのマルチイメージ能力を改善するための今後の取り組みの道を開いた。

関連論文リスト

MMMG: A Massive, Multidisciplinary, Multi-Tier Generation Benchmark for Text-to-Image Reasoning [20.382087716921003]
我々は、MMMG(Massive Multi-Discipline Multi-Tier Knowledge- Image Generation Benchmark)とともに、知識画像生成を新しいタスクとして導入する。 MMMGは10の分野、6の教育レベル、チャート、図、マインドマップといった多様な知識形式にまたがる4,456のエキスパート公認(知識)イメージプロンプトペアを提供している。そこで本稿では,KG間のグラフ編集距離と視覚的明瞭度とを組み合わせ,実感的忠実度を評価するためのMMMGスコアを提案する。
論文参考訳（メタデータ） (2025-06-12T17:58:09Z)
ToFu: Visual Tokens Reduction via Fusion for Multi-modal, Multi-patch, Multi-image Task [34.269081635534526]
ToFuは視覚的エンコーダに依存しない,トレーニング不要な,高解像度でマルチイメージなタスクのためのToken Fusion戦略を提案する。 LLaVA-Interleave Benchは,マルチイメージタスクに挑戦する手法である。
論文参考訳（メタデータ） (2025-03-06T14:00:59Z)
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文参考訳（メタデータ） (2025-01-10T07:56:23Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。マルチステップ誤り最小化(MEM)を提案する。
論文参考訳（メタデータ） (2024-07-23T09:00:52Z)
Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文参考訳（メタデータ） (2024-07-18T17:59:30Z)
Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model [41.103167385290085]
大規模な抽象画像と視覚的推論命令を合成するために,大規模言語モデルとそのコード機能を利用したマルチモーダル自己インストラクトを設計する。我々のベンチマークは単純な線と幾何学的要素で構築されており、最も先進的なLMMの欠点を明らかにする。合成データの質を検証するため,62,476の合成チャート,表,道路地図の指示を用いてLMMを微調整する。
論文参考訳（メタデータ） (2024-07-09T17:18:27Z)
MOFI: Learning Image Representations from Noisy Entity Annotated Images [47.6984817573981]
ノイズのあるエンティティアノテート画像から画像表現を学習するための新しい視覚基盤モデルMOFIを提案する。ノイズの多い画像とテキストのペアから画像にエンティティラベルを自動的に割り当てる手法を提案する。提案手法では、アルトテキストからエンティティを抽出するために名前付きエンティティ認識モデルを使用し、CLIPモデルを用いて、ペア画像のラベルとして正しいエンティティを選択する。
論文参考訳（メタデータ） (2023-06-13T17:51:18Z)
MULLER: Multilayer Laplacian Resizer for Vision [16.67232499096539]
MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。 MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
論文参考訳（メタデータ） (2023-04-06T04:39:21Z)
MuMIC -- Multimodal Embedding for Multi-label Image Classification with Tempered Sigmoid [1.1452732046200158]
マルチモーダル・ラーニング・アプローチは画像表現とシングルラベル画像分類において,近年顕著な成果を上げている。硬度認識型シグモノイドをベースとしたバイナリクロスエントロピー損失関数を用いたマルチモーダルマルチラベル画像分類(MuMIC)フレームワークを提案する。 MuMICは高い分類性能を提供し、現実世界のノイズデータを処理し、ゼロショット予測をサポートし、ドメイン固有の画像埋め込みを生成する。
論文参考訳（メタデータ） (2022-11-02T17:29:35Z)
Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework [83.82026345508334]
モーダル性(クロスモダリティ、ビジョン、言語など)とタスク(画像生成、視覚接地、画像キャプション、画像分類、テキスト生成など)を統一する統合マルチモーダル事前訓練モデルOFAを提案する。 OFAは、イメージキャプション(COCO test CIDEr: 149.6)、テキスト・ツー・イメージ生成(COCO test FID: 10.5)、VQA(test-std encoder acc.: 80.02)、SNLI-VE(test acc.: 90)など、一連のマルチモーダルタスクにおける新しい最先端処理を実現している。
論文参考訳（メタデータ） (2022-02-07T10:38:21Z)
Memory Efficient Meta-Learning with Large Images [62.70515410249566]
数ショットの分類に対するメタ学習アプローチは、新しいタスクを学ぶために、ほんの数ステップの最適化やシングルフォワードパスを必要とするテスト時に計算的に効率的である。この制限は、最大1000のイメージを含むタスクの全体サポートセットが、最適化ステップを取る前に処理されなければならないために生じる。本稿では,1つのGPU上の大容量画像からなる大規模タスクのメタトレーニングを可能にする,汎用的でメモリ効率の良いエピソード・トレーニング手法であるLITEを提案する。
論文参考訳（メタデータ） (2021-07-02T14:37:13Z)
Dual Manifold Adversarial Robustness: Defense against Lp and non-Lp Adversarial Attacks [154.31827097264264]
敵の訓練は、境界Lpノルムを持つ攻撃脅威モデルに対する一般的な防衛戦略である。本稿では,2次元マニフォールド逆行訓練(DMAT)を提案する。我々のDMATは、通常の画像の性能を改善し、Lp攻撃に対する標準的な敵の訓練と同等の堅牢性を達成する。
論文参考訳（メタデータ） (2020-09-05T06:00:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。