論文の概要: ShredBench: Evaluating the Semantic Reasoning Capabilities of Multimodal LLMs in Document Reconstruction
- arxiv url: http://arxiv.org/abs/2604.23813v1
- Date: Sun, 26 Apr 2026 17:26:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.567626
- Title: ShredBench: Evaluating the Semantic Reasoning Capabilities of Multimodal LLMs in Document Reconstruction
- Title(参考訳): ShredBench: 文書再構成におけるマルチモーダルLLMのセマンティック推論能力の評価
- Authors: Zichun Guo, Yuling Shi, Wenhao Zeng, Chao Hu, Haotian Lin, Terry Yue Zhuo, Jiawei Chen, Xiaodong Gu, Wenping Ma,
- Abstract要約: MLLM(Multimodal Large Language Models)は、視覚的リッチドキュメント理解(VRDU)タスクにおいて顕著なパフォーマンスを実現している。
しかし、それらの能力は主に、原始的でよく構造化された文書画像に基づいて評価される。
細断断片からのコンテンツ復元はVRDUの課題であると考えている。
自動生成パイプラインがサポートするベンチマークであるShredBenchを紹介します。
- 参考スコア(独自算出の注目度): 17.955553420959713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable performance in Visually Rich Document Understanding (VRDU) tasks, but their capabilities are mainly evaluated on pristine, well-structured document images. We consider content restoration from shredded fragments, a challenging VRDU setting that requires integrating visual pattern recognition with semantic reasoning under significant content discontinuities. To facilitate systematic evaluation of complex VRDU tasks, we introduce ShredBench, a benchmark supported by an automated generation pipeline that renders fragmented documents directly from Markdown. The proposed pipeline ensures evaluation validity by allowing the flexible integration of latest or unseen textual sources to prevent training data contamination. ShredBench assesses four scenarios (English, Chinese, Code, Table) with three fragmentation granularities (8, 12, 16 pieces). Empirical evaluations on state-of-the-art MLLMs reveal a significant performance gap: The method is effective on intact documents; however, once the document is shredded, restoration becomes a significant challenge, with NED dropping sharply as fragmentation increases. Our findings highlight that current MLLMs lack the fine-grained cross-modal reasoning required to bridge visual discontinuities, identifying a critical gap in robust VRDU research.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚的リッチドキュメント理解(VRDU)タスクにおいて顕著なパフォーマンスを達成しているが、その能力は主に、原始的でよく構造化された文書イメージに基づいて評価されている。
シャープ化された断片からのコンテンツ復元は、視覚的パターン認識と意味論的推論を重要なコンテンツ不連続の下で統合する必要がある、困難なVRDU設定であると考えている。
複雑なVRDUタスクの体系的評価を容易にするために,Markdownから直接断片化された文書をレンダリングする自動生成パイプラインがサポートするベンチマークであるShredBenchを紹介した。
提案したパイプラインは、最新のテキストソースや見えないテキストソースのフレキシブルな統合により、トレーニングデータの汚染を防止することで、評価の妥当性を保証する。
ShredBenchは4つのシナリオ(英語、中国語、コード、テーブル)を3つの断片化粒度(8、12、16ピース)で評価する。
この手法は無傷の文書に有効であるが、文書を細断すると修復は重大な課題となり、NEDは断片化が増加するにつれて急激に低下する。
以上の結果から,現在のMLLMには視覚的不連続性をブリッジするために必要な細粒度のクロスモーダル推論が欠如していることが示唆された。
関連論文リスト
- Align Documents to Questions: Question-Oriented Document Rewriting for Retrieval-Augmented Generation [51.55755193937205]
提案するQREAMは,検索した文書を事実を保存しながら質問指向のスタイルで整列するスタイル制御リライタである。
本フレームワークは,(1) 反復的書き換え探索にスタイリスティックシードを用いたQREAM-ICL,(2) ICL出力から抽出した軽量学生モデルQREAM-FTの2段階からなる。
論文 参考訳(メタデータ) (2026-04-19T08:39:21Z) - DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding [63.257540233507626]
本稿では、構造化解析、局所化、推論のワークフローを実行するためにモデルを必要とするパラダイムを提案する。
ショートページトレーニングから超長文書への堅牢な一般化を示し、視覚的検索・拡張生成システムと自然に相乗効果を示す。
論文 参考訳(メタデータ) (2026-04-14T14:39:26Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - URaG: Unified Retrieval and Generation in Multimodal LLMs for Efficient Long Document Understanding [55.45331924836242]
MLLM内での検索と生成を統一するフレームワークであるURaGについて述べる。
URaGは,計算オーバーヘッドを44~56%削減し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-13T17:54:09Z) - KnowDR-REC: A Benchmark for Referring Expression Comprehension with Real-World Knowledge [1.5833270109954136]
本研究では,実世界の知識に基づいて構築されたKnowDR-RECを提案する。
我々は、KnowDR-REC上で16の最先端マルチモーダルモデルを評価し、既存のMLLMが知識駆動型視覚接地作業に苦戦していることを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-08-12T19:43:44Z) - DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval [36.38599923075882]
DIVERは、推論集約的な情報検索のために設計された検索パイプラインである。
ドキュメント前処理ステージ、クエリ拡張ステージ、検索ステージ、再ランクステージの4つのコンポーネントで構成されている。
BRIGHTベンチマークでは、DIVERは最先端のnDCG@10スコアを45.8点、オリジナルクエリでは28.9点と達成し、競争力のある推論モデルを上回っている。
論文 参考訳(メタデータ) (2025-08-11T13:57:49Z) - Are We on the Right Way for Assessing Document Retrieval-Augmented Generation? [16.717935491483146]
Double-Benchは、大規模、多言語、マルチモーダル評価システムである。
ドキュメントRAGシステム内の各コンポーネントに対してきめ細かい評価を行う。
3,276のドキュメント(72,880ページ)と6言語で5,168のシングルホップクエリで構成されている。
論文 参考訳(メタデータ) (2025-08-05T16:55:02Z) - Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering [60.062194349648195]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。