論文の概要: COHERENCE: Benchmarking Fine-Grained Image-Text Alignment in Interleaved Multimodal Contexts
- arxiv url: http://arxiv.org/abs/2604.27389v1
- Date: Thu, 30 Apr 2026 03:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.916315
- Title: COHERENCE: Benchmarking Fine-Grained Image-Text Alignment in Interleaved Multimodal Contexts
- Title(参考訳): COHERENCE: インターリーブ型マルチモーダルコンテキストにおける微細画像テキストアライメントのベンチマーク
- Authors: Bingli Wang, Huanze Tang, Haijun Lv, Zhishan Lin, Lixin Gu, Lei Feng, Qipeng Guo, Kai Chen,
- Abstract要約: COHERENCEは、MLLMがインターリーブされたコンテキストにおける微細な画像テキスト対応を回復する能力を評価するために設計されたベンチマークである。
我々は、6種類の誤り解析を行い、インターリーブ画像テキスト理解における失敗の微粒化を可能とした。
- 参考スコア(独自算出の注目度): 34.97838652946461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Multimodal Large Language Models (MLLMs) have achieved remarkable progress on a wide range of multimodal benchmarks. Despite these advances, most existing benchmarks mainly focus on single-image or multi-image comprehension. In real-world scenarios such as document reading, information is often presented as interleaved multimodel contexts. This requires MLLMs not only to recognize the content of individual images, but also to identify relevant textual and visual evidence, establish fine-grained alignments between them, and reason over these aligned signals in interleaved contexts based on contextual evidence.However, there is still a lack of systematic benchmarks for quantifying the fine-grained understanding ability of MLLMs in interleaved image-text contexts. To fill this gap, we propose COHERENCE, a benchmark designed to evaluate the ability of MLLMs to recover fine-grained image-text correspondences in interleaved multimodal contexts. COHERENCE covers interleaved image-text content from four representative domains and contains 6,161 high-quality questions. Moreover, we perform a six-type error analysis, enabling fine-grained attribution of failures in interleaved image-text understanding to the specific capabilities missing in current MLLMs.
- Abstract(参考訳): 近年、MLLM(Multimodal Large Language Models)は、幅広いマルチモーダルベンチマークにおいて顕著な進歩を遂げている。
これらの進歩にもかかわらず、既存のベンチマークのほとんどは、主にシングルイメージまたはマルチイメージの理解に焦点を当てている。
文書読解のような現実のシナリオでは、情報はしばしばインターリーブされたマルチモデルコンテキストとして表現される。
これは、MLLMが個々の画像の内容を認識するだけでなく、関連するテキストおよび視覚的証拠を識別し、それら間の微妙なアライメントを確立し、文脈的エビデンスに基づいてこれらの整列されたシグナルをインターリーブされた文脈で解釈するために必要なものであるが、それでもインターリーブされた画像コンテキストにおけるMLLMの微粒な理解能力を定量化するための体系的なベンチマークが存在しない。
このギャップを埋めるために、我々はMLLMがインターリーブされたマルチモーダルコンテキストにおけるきめ細かい画像テキスト対応を復元する能力を評価するためのベンチマークであるCOHERENCEを提案する。
COHERENCEは4つの代表領域からのインターリーブされた画像テキストコンテンツをカバーし、6,161の高品質な質問を含んでいる。
さらに、6種類の誤り解析を行い、現在のMLLMに欠けている特定の機能に対するインターリーブ画像テキスト理解の失敗の微粒化を可能とした。
関連論文リスト
- From Easy to Hard: The MIR Benchmark for Progressive Interleaved Multi-Image Reasoning [27.117102717184597]
Multi-image Interleaved Reasoningは、複数の画像とその関連するテキストコンテキストを共同で理解し、推論するマルチモーダル大言語モデル(MLLM)の能力を改善することを目的としている。
MIRは、画像領域と対応するテキストを正確に関連付けるために、インターリーブされたテキストコンテキストを伴う複数の画像に対する共同推論を必要とする。
提案手法は, MIRベンチマークおよび他の確立されたベンチマークにおいて, モデル推論性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-09-21T11:19:02Z) - Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering [60.062194349648195]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z) - Towards Visual Text Grounding of Multimodal Large Language Model [74.22413337117617]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。
既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。
マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。
M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文 参考訳(メタデータ) (2025-03-27T07:28:32Z) - MCiteBench: A Multimodal Benchmark for Generating Text with Citations [31.793037002996257]
MLLM(Multimodal Large Language Models)は多様なモダリティを統合するために進歩しているが、幻覚に悩まされることが多い。
既存の作業は主にテキストのみのコンテンツに対する引用の生成に重点を置いており、マルチモーダルシナリオの課題はほとんど解明されていない。
マルチモーダルな文脈で引用文を生成するMLLMの能力を評価するための最初のベンチマークであるMCiteBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-04T13:12:39Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。