論文の概要: Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2605.01284v1
- Date: Sat, 02 May 2026 06:40:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.684007
- Title: Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation
- Title(参考訳): 証拠の連鎖: 反復検索拡張生成のための画素レベル視覚属性
- Authors: Peiyang Liu, Ziqiang Cui, Xi Wang, Di Liang, Wei Ye,
- Abstract要約: 反復検索拡張生成(iRAG)は、複雑なマルチホップ問題に答える強力なパラダイムとして登場した。
Evidence (CoE) の textbfChain について述べる。
- 参考スコア(独自算出の注目度): 19.889854990300595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Iterative Retrieval-Augmented Generation (iRAG) has emerged as a powerful paradigm for answering complex multi-hop questions by progressively retrieving and reasoning over external documents. However, current systems predominantly operate on parsed text, which creates two critical bottlenecks: (1) \textit{Coarse-grained attribution}, where users are burdened with manually locating evidence within lengthy documents based on vague text-level citations; and (2) \textit{Visual semantic loss}, where the conversion of visually rich documents (e.g., slides, PDFs with charts) into text discards spatial logic and layout cues essential for reasoning. To bridge this gap, we present \textbf{Chain of Evidence (CoE)}, a retriever-agnostic visual attribution framework that leverages Vision-Language Models to reason directly over screenshots of retrieved document candidates. CoE eliminates format-specific parsing and outputs precise bounding boxes, visualizing the complete reasoning chain within the retrieved candidate set. We evaluate CoE on two distinct benchmarks: \textbf{Wiki-CoE}, a large-scale dataset of structured web pages derived from 2WikiMultiHopQA, and \textbf{SlideVQA}, a challenging dataset of presentation slides featuring complex diagrams and free-form layouts. Experiments demonstrate that fine-tuned Qwen3-VL-8B-Instruct achieves robust performance, significantly outperforming text-based baselines in scenarios requiring visual layout understanding, while establishing a retriever-agnostic solution for pixel-level interpretable iRAG. Our code is available at https://github.com/PeiYangLiu/CoE.git.
- Abstract(参考訳): 反復検索拡張生成(iRAG)は、外部文書を段階的に検索し、推論することによって、複雑なマルチホップ問題に答える強力なパラダイムとして登場した。
しかし、現状のシステムは、主にパースされたテキストで運用されており、(1) 曖昧なテキストレベルの引用に基づいて、ユーザが手動で文書内の証拠を発見できる、(2) 視覚的にリッチなドキュメント(例えば、スライド、PDF、チャートなど)をテキストに変換する、という2つの重要なボトルネックを生み出している。
このギャップを埋めるために、我々は、Vision-Language Modelsを活用して、検索した文書候補のスクリーンショットを直接解析する、レトリバーに依存しない視覚属性フレームワークである \textbf{Chain of Evidence (CoE)} を提示する。
CoEはフォーマット固有の解析を排除し、正確な境界ボックスを出力し、検索された候補セット内の完全な推論チェーンを視覚化する。
2WikiMultiHopQAから派生した構造化Webページの大規模データセットである \textbf{Wiki-CoE} と、複雑な図と自由形式のレイアウトを備えたプレゼンテーションスライドの挑戦的データセットである \textbf{SlideVQA} の2つの異なるベンチマークでCoEを評価した。
実験により、Qwen3-VL-8B-Instructは、ピクセルレベルの解釈可能なiRAGのためのレトリバー非依存のソリューションを確立しながら、視覚的レイアウト理解を必要とするシナリオにおいて、テキストベースのベースラインを著しく上回り、堅牢なパフォーマンスを実現することが示された。
私たちのコードはhttps://github.com/PeiYangLiu/CoE.git.comで利用可能です。
関連論文リスト
- Lightweight and Production-Ready PDF Visual Element Parsing [0.0]
既存のPDFは複雑なビジュアルを見逃し、非形式的なアーティファクトを抽出し、断片化された要素を生成し、キャプションと対応する要素を確実に関連付けることができない。
本稿では,視覚的要素を正確に検出し,キャプションを関連付ける軽量かつ生産レベルのPDF解析フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-25T12:40:13Z) - DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding [63.257540233507626]
本稿では、構造化解析、局所化、推論のワークフローを実行するためにモデルを必要とするパラダイムを提案する。
ショートページトレーニングから超長文書への堅牢な一般化を示し、視覚的検索・拡張生成システムと自然に相乗効果を示す。
論文 参考訳(メタデータ) (2026-04-14T14:39:26Z) - Multimodal OCR: Parse Anything from Documents [72.69545534962234]
dots.mocrは、チャート、ダイアグラム、テーブル、アイコンなどのビジュアル要素を第一級解析ターゲットとして扱う。
テキストとグラフィックの両方を構造化出力として再構築し、より忠実なドキュメント再構築を可能にする。
不均一なドキュメント要素に対するエンドツーエンドのトレーニングをサポートする。
論文 参考訳(メタデータ) (2026-03-13T14:42:21Z) - $G^2$-Reader: Dual Evolving Graphs for Multimodal Document QA [53.491241153213565]
G2$-Readerはマルチモーダルな質問応答のためのデュアルグラフシステムである。
Qwen3-VL-32B-Instructによる$G2$-Readerの平均精度は66.21%に達し、強力なベースラインとスタンドアローンのGPT-5(53.08%)を上回った。
5つのマルチモーダルドメインにわたるVisDoMBenchでは、Qwen3-VL-32B-Instructを使った$G2$-Readerが平均精度66.21%に達し、強力なベースラインとスタンドアロンのGPT-5(53.08%)を上回っている。
論文 参考訳(メタデータ) (2026-01-29T17:52:54Z) - Youtu-Parsing: Perception, Structuring and Recognition via High-Parallelism Decoding [35.429403152845836]
Youtu-Parsingは、高性能コンテンツ抽出のために設計された、効率的で汎用的な文書解析モデルである。
このモデルは稀な文字、多言語テキスト、手書きコンテンツを扱う際に強い堅牢性を示す。
Youtu-ParsingはOmniDocBenchおよびolmOCR-benchベンチマーク上での最先端(SOTA)パフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-28T09:37:13Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval [22.33550491040999]
RAGは、大きな言語モデルを外部の証拠に基礎を置いているが、セマンティックに遠く離れた文書で答えをまとめなければならないと、いまだに混乱している。
私たちは、StatementGraphRAGとTopicGraphRAGという2つのプラグイン・アンド・プレイレトリバーを構築します。
提案手法は,検索リコールと正当性において平均23.1%の相対的改善を達成し,有意なチャンクベースRAGよりも優れていた。
論文 参考訳(メタデータ) (2025-06-09T17:58:35Z) - Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding [42.506971197471195]
ドキュメント解析のために約3.8Mの事前学習データペアで構成されるDocMark-Pileと、グラウンドド命令に従うための624kの微調整データアノテーションを備えたDocMark-Instructの2つのきめ細かい構造化データセットを紹介した。
提案手法は,様々なビジュアル文書理解ベンチマークにおいて,既存の最先端MLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-05-08T17:37:36Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。