論文の概要: From Easy to Hard: The MIR Benchmark for Progressive Interleaved Multi-Image Reasoning
- arxiv url: http://arxiv.org/abs/2509.17040v1
- Date: Sun, 21 Sep 2025 11:19:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.083511
- Title: From Easy to Hard: The MIR Benchmark for Progressive Interleaved Multi-Image Reasoning
- Title(参考訳): 簡単からハードへ:プログレッシブインターリーブマルチイメージ推論のためのMIRベンチマーク
- Authors: Hang Du, Jiayang Zhang, Guoshun Nan, Wendi Deng, Zhenyan Chen, Chenyang Zhang, Wang Xiao, Shan Huang, Yuqi Pan, Tao Qi, Sicong Leng,
- Abstract要約: Multi-image Interleaved Reasoningは、複数の画像とその関連するテキストコンテキストを共同で理解し、推論するマルチモーダル大言語モデル(MLLM)の能力を改善することを目的としている。
MIRは、画像領域と対応するテキストを正確に関連付けるために、インターリーブされたテキストコンテキストを伴う複数の画像に対する共同推論を必要とする。
提案手法は, MIRベンチマークおよび他の確立されたベンチマークにおいて, モデル推論性能を著しく向上させる。
- 参考スコア(独自算出の注目度): 27.117102717184597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-image Interleaved Reasoning aims to improve Multi-modal Large Language Models (MLLMs) ability to jointly comprehend and reason across multiple images and their associated textual contexts, introducing unique challenges beyond single-image or non-interleaved multi-image tasks. While current multi-image benchmarks overlook interleaved textual contexts and neglect distinct relationships between individual images and their associated texts, enabling models to reason over multi-image interleaved data may significantly enhance their comprehension of complex scenes and better capture cross-modal correlations. To bridge this gap, we introduce a novel benchmark MIR, requiring joint reasoning over multiple images accompanied by interleaved textual contexts to accurately associate image regions with corresponding texts and logically connect information across images. To enhance MLLMs ability to comprehend multi-image interleaved data, we introduce reasoning steps for each instance within the benchmark and propose a stage-wise curriculum learning strategy. This strategy follows an "easy to hard" approach, progressively guiding models from simple to complex scenarios, thereby enhancing their ability to handle challenging tasks. Extensive experiments benchmarking multiple MLLMs demonstrate that our method significantly enhances models reasoning performance on MIR and other established benchmarks. We believe that MIR will encourage further research into multi-image interleaved reasoning, facilitating advancements in MLLMs capability to handle complex inter-modal tasks.Our code and dataset are available at https://github.com/Shelly-coder239/MIRBench.
- Abstract(参考訳): Multi-image Interleaved Reasoningは、複数の画像とその関連するテキストコンテキストを共同で理解し、推論するマルチモーダルなLarge Language Model(MLLM)機能を改善することを目的としており、シングルイメージまたは非インターリーブされたマルチイメージタスクを越えて、ユニークな課題を導入している。
現在のマルチイメージベンチマークでは、インターリーブ付きテキストのコンテキストを見落とし、個々の画像と関連するテキストとの明確な関係を無視している。
このギャップを埋めるために、我々は、複数の画像に対して共同推論を行う新しいベンチマークMIRを導入し、画像領域を対応するテキストと正確に関連付け、画像間で情報を論理的に接続するために、インターリーブされたテキストコンテキストを伴う。
マルチイメージのインターリーブデータを理解するMLLMの能力を高めるため,ベンチマーク内の各インスタンスの推論手順を導入し,段階的なカリキュラム学習戦略を提案する。
この戦略は、単純なシナリオから複雑なシナリオまでモデルを段階的にガイドする"簡単から困難"なアプローチに従っている。
複数のMLLMをベンチマークする大規模な実験により、我々の手法は、MIRや他の確立されたベンチマークの性能を推論するモデルを大幅に向上することを示した。
我々は、MIRがマルチイメージインターリーブ推論のさらなる研究を奨励し、複雑なモーダルタスクを処理するMLLMの能力の向上を促進し、我々のコードとデータセットはhttps://github.com/Shelly-coder239/MIRBenchで入手できると考えている。
関連論文リスト
- CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - SMIR: Efficient Synthetic Data Pipeline To Improve Multi-Image Reasoning [26.986638043619397]
マルチイメージ推論のための合成データ生成パイプラインであるSMiRを紹介する。
我々は160Kの合成トレーニングサンプルを作成し、クローズドソースソリューションに代わる費用対効果を提供する。
SMiR-Benchは200種類の多彩な例からなるマルチイメージ推論ベンチマークである。
論文 参考訳(メタデータ) (2025-01-07T10:21:21Z) - Compositional Image Retrieval via Instruction-Aware Contrastive Learning [40.54022628032561]
Composed Image Retrieval (CIR)は、テキストとペアリングした画像の合成クエリに基づいてターゲットイメージを検索する。
実際には、下流タスクにおけるアノテートデータの不足のため、ゼロショットCIR(ZS-CIR)が望ましい。
命令調整型マルチモーダルLLM(MLLM)を用いて合成表現を生成する新しい埋め込み手法を提案する。
論文 参考訳(メタデータ) (2024-12-07T22:46:52Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning [42.68425777473114]
大規模言語モデル(LLM)によって強化された視覚言語モデル(VLM)は、急速に人気が高まっている。
マルチモーダル・インコンテキスト・ラーニング(MMICL)を用いた視覚言語モデルを導入し,VLMがマルチモーダル入力を効率的に処理できるようにする。
実験により,MMICLは多種多様な視覚言語タスクにおいて,最先端のゼロショット性能を実現することを確認した。
論文 参考訳(メタデータ) (2023-09-14T17:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。