Fugu-MT 論文翻訳(概要): MANTIS: Interleaved Multi-Image Instruction Tuning

論文の概要: MANTIS: Interleaved Multi-Image Instruction Tuning

arxiv url: http://arxiv.org/abs/2405.01483v1
Date: Thu, 2 May 2024 17:14:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-03 15:35:38.244029
Title: MANTIS: Interleaved Multi-Image Instruction Tuning
Title（参考訳）: MANTIS: インターリーブされたマルチイメージインストラクションチューニング
Authors: Dongfu Jiang, Xuan He, Huaye Zeng, Cong Wei, Max Ku, Qian Liu, Wenhu Chen,
Abstract要約: 我々は,学術レベルのリソースを用いた指導チューニングにより,強力なマルチイメージLMMを構築することを目指している。 We design Mantis-Instruct to cover different multi-image skills, co-reference, reasoning, comparison, temporal understanding。 Mantis-8Bは、すべてのマルチイメージのベンチマークで最先端のパフォーマンスを達成でき、既存の最高のマルチイメージのLMM Idefics2-8Bを平均9つの絶対点で打ち負かすことができる。
参考スコア（独自算出の注目度）: 43.91842692263417
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recent years have witnessed a great array of large multimodal models (LMMs) to effectively solve single-image vision language tasks. However, their abilities to solve multi-image visual language tasks is yet to be improved. The existing multi-image LMMs (e.g. OpenFlamingo, Emu, Idefics, etc) mostly gain their multi-image ability through pre-training on hundreds of millions of noisy interleaved image-text data from web, which is neither efficient nor effective. In this paper, we aim at building strong multi-image LMMs via instruction tuning with academic-level resources. Therefore, we meticulously construct Mantis-Instruct containing 721K instances from 14 multi-image datasets. We design Mantis-Instruct to cover different multi-image skills like co-reference, reasoning, comparing, temporal understanding. We combine Mantis-Instruct with several single-image visual-language datasets to train our model Mantis to handle any interleaved image-text inputs. We evaluate the trained Mantis on five multi-image benchmarks and eight single-image benchmarks. Though only requiring academic-level resources (i.e. 36 hours on 16xA100-40G), Mantis-8B can achieve state-of-the-art performance on all the multi-image benchmarks and beats the existing best multi-image LMM Idefics2-8B by an average of 9 absolute points. We observe that Mantis performs equivalently well on the held-in and held-out evaluation benchmarks. We further evaluate Mantis on single-image benchmarks and demonstrate that Mantis can maintain a strong single-image performance on par with CogVLM and Emu2. Our results are particularly encouraging as it shows that low-cost instruction tuning is indeed much more effective than intensive pre-training in terms of building multi-image LMMs.
Abstract（参考訳）: 近年では、単一イメージの視覚言語タスクを効果的に解くために、大規模なマルチモーダルモデル(LMM)が多数登場している。しかし、マルチイメージの視覚言語タスクを解く能力はまだ改善されていない。既存のマルチイメージLMM(例えば、OpenFlamingo、Emu、Ideficsなど)は、Webから何十億ものノイズの多いインターリーブ画像テキストデータを事前学習することで、そのマルチイメージ能力を得る。本稿では,学術レベルのリソースを用いた指導指導により,強力なマルチイメージLMMを構築することを目的とする。そこで,14のマルチイメージデータセットから 721K のインスタンスを含む Mantis-Instruct を慎重に構築する。 We design Mantis-Instruct to cover different multi-image skills, co-reference, reasoning, comparison, temporal understanding。 Mantis-Instructと複数の単一イメージのビジュアル言語データセットを組み合わせて、Mantisをトレーニングして、インターリーブされたイメージテキスト入力を処理します。トレーニングしたマンティスを5つのマルチイメージベンチマークと8つのシングルイメージベンチマークで評価した。学術レベルのリソース(すなわち16xA100-40Gの36時間)のみを必要とするが、Mantis-8Bはすべてのマルチイメージベンチマークで最先端のパフォーマンスを達成でき、既存の最高のマルチイメージ LMM Idefics2-8B を平均9つの絶対点で打ち負かすことができる。我々はマンティスがホールドインおよびホールドアウト評価ベンチマークで同等に優れていることを観察する。さらに,マンティスをシングルイメージのベンチマークで評価し,マンティスがCogVLMやEmu2と同等の強いシングルイメージ性能を維持できることを実証した。この結果から,マルチイメージLMMの構築において,高精度な事前学習よりも,低コストの指導チューニングの方がはるかに効果的であることが示唆された。

関連論文リスト

MMMG: A Massive, Multidisciplinary, Multi-Tier Generation Benchmark for Text-to-Image Reasoning [20.382087716921003]
我々は、MMMG(Massive Multi-Discipline Multi-Tier Knowledge- Image Generation Benchmark)とともに、知識画像生成を新しいタスクとして導入する。 MMMGは10の分野、6の教育レベル、チャート、図、マインドマップといった多様な知識形式にまたがる4,456のエキスパート公認(知識)イメージプロンプトペアを提供している。そこで本稿では,KG間のグラフ編集距離と視覚的明瞭度とを組み合わせ,実感的忠実度を評価するためのMMMGスコアを提案する。
論文参考訳（メタデータ） (2025-06-12T17:58:09Z)
ToFu: Visual Tokens Reduction via Fusion for Multi-modal, Multi-patch, Multi-image Task [34.269081635534526]
ToFuは視覚的エンコーダに依存しない,トレーニング不要な,高解像度でマルチイメージなタスクのためのToken Fusion戦略を提案する。 LLaVA-Interleave Benchは,マルチイメージタスクに挑戦する手法である。
論文参考訳（メタデータ） (2025-03-06T14:00:59Z)
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文参考訳（メタデータ） (2025-01-10T07:56:23Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。マルチステップ誤り最小化(MEM)を提案する。
論文参考訳（メタデータ） (2024-07-23T09:00:52Z)
Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文参考訳（メタデータ） (2024-07-18T17:59:30Z)
Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model [41.103167385290085]
大規模な抽象画像と視覚的推論命令を合成するために,大規模言語モデルとそのコード機能を利用したマルチモーダル自己インストラクトを設計する。我々のベンチマークは単純な線と幾何学的要素で構築されており、最も先進的なLMMの欠点を明らかにする。合成データの質を検証するため,62,476の合成チャート,表,道路地図の指示を用いてLMMを微調整する。
論文参考訳（メタデータ） (2024-07-09T17:18:27Z)
MOFI: Learning Image Representations from Noisy Entity Annotated Images [47.6984817573981]
ノイズのあるエンティティアノテート画像から画像表現を学習するための新しい視覚基盤モデルMOFIを提案する。ノイズの多い画像とテキストのペアから画像にエンティティラベルを自動的に割り当てる手法を提案する。提案手法では、アルトテキストからエンティティを抽出するために名前付きエンティティ認識モデルを使用し、CLIPモデルを用いて、ペア画像のラベルとして正しいエンティティを選択する。
論文参考訳（メタデータ） (2023-06-13T17:51:18Z)
MULLER: Multilayer Laplacian Resizer for Vision [16.67232499096539]
MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。 MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
論文参考訳（メタデータ） (2023-04-06T04:39:21Z)
MuMIC -- Multimodal Embedding for Multi-label Image Classification with Tempered Sigmoid [1.1452732046200158]
マルチモーダル・ラーニング・アプローチは画像表現とシングルラベル画像分類において,近年顕著な成果を上げている。硬度認識型シグモノイドをベースとしたバイナリクロスエントロピー損失関数を用いたマルチモーダルマルチラベル画像分類(MuMIC)フレームワークを提案する。 MuMICは高い分類性能を提供し、現実世界のノイズデータを処理し、ゼロショット予測をサポートし、ドメイン固有の画像埋め込みを生成する。
論文参考訳（メタデータ） (2022-11-02T17:29:35Z)
Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework [83.82026345508334]
モーダル性(クロスモダリティ、ビジョン、言語など)とタスク(画像生成、視覚接地、画像キャプション、画像分類、テキスト生成など)を統一する統合マルチモーダル事前訓練モデルOFAを提案する。 OFAは、イメージキャプション(COCO test CIDEr: 149.6)、テキスト・ツー・イメージ生成(COCO test FID: 10.5)、VQA(test-std encoder acc.: 80.02)、SNLI-VE(test acc.: 90)など、一連のマルチモーダルタスクにおける新しい最先端処理を実現している。
論文参考訳（メタデータ） (2022-02-07T10:38:21Z)
Memory Efficient Meta-Learning with Large Images [62.70515410249566]
数ショットの分類に対するメタ学習アプローチは、新しいタスクを学ぶために、ほんの数ステップの最適化やシングルフォワードパスを必要とするテスト時に計算的に効率的である。この制限は、最大1000のイメージを含むタスクの全体サポートセットが、最適化ステップを取る前に処理されなければならないために生じる。本稿では,1つのGPU上の大容量画像からなる大規模タスクのメタトレーニングを可能にする,汎用的でメモリ効率の良いエピソード・トレーニング手法であるLITEを提案する。
論文参考訳（メタデータ） (2021-07-02T14:37:13Z)
Dual Manifold Adversarial Robustness: Defense against Lp and non-Lp Adversarial Attacks [154.31827097264264]
敵の訓練は、境界Lpノルムを持つ攻撃脅威モデルに対する一般的な防衛戦略である。本稿では,2次元マニフォールド逆行訓練(DMAT)を提案する。我々のDMATは、通常の画像の性能を改善し、Lp攻撃に対する標準的な敵の訓練と同等の堅牢性を達成する。
論文参考訳（メタデータ） (2020-09-05T06:00:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。