論文の概要: DocScope: Benchmarking Verifiable Reasoning for Trustworthy Long-Document Understanding
- arxiv url: http://arxiv.org/abs/2605.08888v2
- Date: Thu, 14 May 2026 06:57:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 15:19:49.859494
- Title: DocScope: Benchmarking Verifiable Reasoning for Trustworthy Long-Document Understanding
- Title(参考訳): DocScope: 信頼できる長期ドキュメント理解のための検証可能な推論のベンチマーク
- Authors: Xiang Feng, Jiawei Zhou, Zhangfeng Huang, Kewei Wang, Shanshan Ye, Jinxin Hu, Zulong Chen, Yong Luo, Jing Zhang,
- Abstract要約: 本稿では,長期文書QAを構造化推論軌道予測問題として定式化するベンチマークであるDocScopeを紹介する。
軌道の各レベルを独立に監査する4段階評価プロトコルを設計する。
6つのプロプライエタリなモデル、12のオープンウェイトモデル、いくつかのドメイン固有のシステムをベンチマークします。
- 参考スコア(独自算出の注目度): 29.270128057512284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating whether Multimodal Large Language Models can produce trustworthy, verifiable reasoning over long, visually rich documents requires evaluation beyond end-to-end answer accuracy. We introduce DocScope, a benchmark that formulates long-document QA as a structured reasoning trajectory prediction problem: given a complete PDF document and a question, the model outputs evidence pages, supporting evidence regions, relevant factual statements, and a final answer. We design a four-stage evaluation protocol -- Page Localization, Region Grounding, Fact Extraction, and Answer Verification -- that audits each level of the trajectory independently through inter-stage decoupling, with all judges selected and calibrated via human alignment studies. DocScope comprises 1,124 questions derived from 273 documents, with all hierarchical evidence annotations completed by human annotators. We benchmark 6 proprietary models, 12 open-weight models, and several domain-specific systems. Our experiments reveal that answer accuracy cannot substitute for trajectory-level evaluation: even among correct answers, the highest observed rate of complete evidence chains is only 29\%. Across all models, region grounding remains the weakest trajectory stage. Furthermore, the primary difficulty stems from aggregating evidence dispersed across long distances and multiple document clusters, while an oracle study identifies faithful perception and fact extraction as the dominant capability bottleneck. Cross-architecture comparisons further suggest that activated parameter count matters more than total scale. The benchmark and code will be publicly released at https://github.com/MiliLab/DocScope.
- Abstract(参考訳): マルチモーダル大規模言語モデルが、長く視覚的にリッチなドキュメントに対して信頼できる、検証可能な推論を生成できるかどうかを評価するには、エンドツーエンドの回答精度以上の評価が必要である。
本稿では,長期文書QAを構造化推論軌道予測問題として定式化するベンチマークであるDocScopeを紹介する。
我々は,4段階評価プロトコル,ページローカライゼーション,地域接地,ファクト抽出,Answer Verification を設計し,段階間デカップリングによって各段階の軌跡を独立に監査する。
DocScopeは273の文書から抽出された1,124の質問と、人間のアノテーションによって完成したすべての階層的なエビデンスアノテーションで構成されている。
6つのプロプライエタリなモデル、12のオープンウェイトモデル、いくつかのドメイン固有のシステムをベンチマークします。
実験の結果, 軌道レベルの評価には解答精度が代わることができないことが明らかとなった。
すべてのモデルにおいて、領域接地は最も弱い軌道段階のままである。
さらに、主要な困難は、長距離や複数の文書クラスタにまたがる証拠の集約によるものであり、一方、オラクルの研究は、忠実な認識と事実抽出を主要な能力ボトルネックとして認識している。
クロスアーキテクチャ比較は、活性化パラメータが全スケール以上重要であることを示唆している。
ベンチマークとコードはhttps://github.com/MiliLab/DocScope.comで公開される。
関連論文リスト
- Navigating Large-Scale Document Collections: MuDABench for Multi-Document Analytical QA [25.155696504567718]
本稿では,大規模半構造化文書コレクションに対する解析的質問応答の課題について紹介する。
マルチドキュメント分析QAのベンチマークである MuDABench を提案する。
論文 参考訳(メタデータ) (2026-04-24T05:28:51Z) - Doc-V*:Coarse-to-Fine Interactive Visual Reasoning for Multi-Page Document VQA [71.42483000929614]
複数ページのドキュメント 視覚的質問回答は、長い、視覚的に密集したドキュメントにおける意味論、レイアウト、および視覚的要素の推論を必要とする。
我々は,多ページDocVQAをシーケンシャルエビデンスアグリゲーションとしてキャストするtextbfOCRフリーエージェントフレームワークであるDoc-$V*$を提案する。
論文 参考訳(メタデータ) (2026-04-15T11:12:27Z) - DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding [63.257540233507626]
本稿では、構造化解析、局所化、推論のワークフローを実行するためにモデルを必要とするパラダイムを提案する。
ショートページトレーニングから超長文書への堅牢な一般化を示し、視覚的検索・拡張生成システムと自然に相乗効果を示す。
論文 参考訳(メタデータ) (2026-04-14T14:39:26Z) - BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence [19.79339768762567]
BRIDGEは,長期にわたる科学論文に対するマルチホップ推論のベンチマークである。
このデータセットはチェーンライク構造とファンアウト構造の両方をサポートし、明示的なマルチホップ推論アノテーションを提供する。
論文 参考訳(メタデータ) (2026-03-09T03:54:08Z) - DOCR-Inspector: Fine-Grained and Automated Evaluation of Document Parsing with VLM [35.910677096654574]
文書解析は、構造化されていないPDF画像を半構造化データに変換することを目的としており、多様な領域における情報のデジタル化と活用を容易にする。
一般的なプラクティスは、しばしば標準ベンチマークで最高のパフォーマンスモデルを選択する。
本稿では,文書解析評価をきめ細かな誤り検出と解析として形式化するDOCR-Inspectorを紹介する。
論文 参考訳(メタデータ) (2025-12-11T13:16:33Z) - DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval [36.38599923075882]
DIVERは、推論集約的な情報検索のために設計された検索パイプラインである。
ドキュメント前処理ステージ、クエリ拡張ステージ、検索ステージ、再ランクステージの4つのコンポーネントで構成されている。
BRIGHTベンチマークでは、DIVERは最先端のnDCG@10スコアを45.8点、オリジナルクエリでは28.9点と達成し、競争力のある推論モデルを上回っている。
論文 参考訳(メタデータ) (2025-08-11T13:57:49Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。