論文の概要: Look As You Think: Unifying Reasoning and Visual Evidence Attribution for Verifiable Document RAG via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.12003v1
- Date: Sat, 15 Nov 2025 02:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.49847
- Title: Look As You Think: Unifying Reasoning and Visual Evidence Attribution for Verifiable Document RAG via Reinforcement Learning
- Title(参考訳): あなたが思うように:強化学習による検証可能な文書RAGの推論と視覚的エビデンス属性の統一化
- Authors: Shuochen Liu, Pengfei Luo, Chao Zhang, Yuhao Chen, Haotian Zhang, Qi Liu, Xin Kou, Tong Xu, Enhong Chen,
- Abstract要約: Look As You Think (LAT)は、モデルをトレーニングし、一貫した帰属性を持った検証可能な推論パスを生成するための強化学習フレームワークである。
LATはシングルイメージとマルチイメージの両方でバニラモデルを一貫して改善し、平均ゲインは8.23%、IoU@0.5では47.0%となる。
- 参考スコア(独自算出の注目度): 55.232400251303794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aiming to identify precise evidence sources from visual documents, visual evidence attribution for visual document retrieval-augmented generation (VD-RAG) ensures reliable and verifiable predictions from vision-language models (VLMs) in multimodal question answering. Most existing methods adopt end-to-end training to facilitate intuitive answer verification. However, they lack fine-grained supervision and progressive traceability throughout the reasoning process. In this paper, we introduce the Chain-of-Evidence (CoE) paradigm for VD-RAG. CoE unifies Chain-of-Thought (CoT) reasoning and visual evidence attribution by grounding reference elements in reasoning steps to specific regions with bounding boxes and page indexes. To enable VLMs to generate such evidence-grounded reasoning, we propose Look As You Think (LAT), a reinforcement learning framework that trains models to produce verifiable reasoning paths with consistent attribution. During training, LAT evaluates the attribution consistency of each evidence region and provides rewards only when the CoE trajectory yields correct answers, encouraging process-level self-verification. Experiments on vanilla Qwen2.5-VL-7B-Instruct with Paper- and Wiki-VISA benchmarks show that LAT consistently improves the vanilla model in both single- and multi-image settings, yielding average gains of 8.23% in soft exact match (EM) and 47.0% in IoU@0.5. Meanwhile, LAT not only outperforms the supervised fine-tuning baseline, which is trained to directly produce answers with attribution, but also exhibits stronger generalization across domains.
- Abstract(参考訳): 視覚的文書から正確な証拠源を特定することを目的として、視覚的文書検索拡張生成(VD-RAG)の視覚的証拠は、マルチモーダル質問応答における視覚言語モデル(VLM)からの信頼性と検証可能な予測を保証する。
既存の方法の多くは、直感的な回答検証を容易にするためにエンドツーエンドのトレーニングを採用している。
しかし、彼らは推論プロセスを通して、きめ細かい監督と進歩的なトレーサビリティを欠いている。
本稿では,VD-RAGにおけるChain-of-Evidence(CoE)パラダイムを紹介する。
CoEは、バウンディングボックスとページインデックスを持つ特定の領域への推論ステップにおいて、参照要素を接地することで、Chain-of-Thought(CoT)推論と視覚的エビデンスに起因する帰結を統一する。
このような根拠に基づく推論をVLMが生成できるようにするために,一貫した帰属性を持つ検証可能な推論経路を生成するためにモデルを訓練する強化学習フレームワークであるLook As You Think (LAT)を提案する。
トレーニング中、LATは各エビデンス領域の帰属一貫性を評価し、CoE軌道が正しい回答を得た場合にのみ報酬を与え、プロセスレベルの自己検証を促進する。
バニラQwen2.5-VL-7B-Instruct with Paper- and Wiki-VISAベンチマークの実験では、LATは単一画像と複数画像の両方でバニラモデルを一貫して改善し、ソフト・クオリティマッチ(EM)では8.23%、IoU@0.5では47.0%の平均ゲインを得た。
一方、LATは教師付き微調整ベースラインよりも優れており、帰属による回答を直接生成するように訓練されているだけでなく、ドメイン間のより強い一般化も示している。
関連論文リスト
- Abductive Inference in Retrieval-Augmented Language Models: Generating and Validating Missing Premises [0.0]
本稿では,帰納的推論をLLMに組み込むフレームワークを提案する。
帰納的推論とマルチホップQAベンチマークの実験結果から,本手法は解答精度と帰納的忠実度の両方を改善することが示された。
この研究は、RAGシステムの堅牢性と説明可能性を高めるための有望な方向として、帰納的推論を強調している。
論文 参考訳(メタデータ) (2025-11-06T03:37:24Z) - VisRAG 2.0: Evidence-Guided Multi-Image Reasoning in Visual Retrieval-Augmented Generation [64.82775032985485]
視覚検索強化世代(VRAG)は視覚言語モデル(VLM)を外的視覚知識で拡張し、基礎推論を行い幻覚を減らす。
しかし、現在のVRAGシステムは、複数の画像に対して確実な認識と証拠の統合に失敗し、根拠の弱さと誤った結論に繋がることが多い。
EVisRAGは,エビデンス誘導型マルチイメージで推論を学習し,この問題に対処するエンド・ツー・エンドのフレームワークである。
論文 参考訳(メタデータ) (2025-10-10T13:34:23Z) - Veri-R1: Toward Precise and Faithful Claim Verification via Online Reinforcement Learning [53.05161493434908]
大規模言語モデル(LLM)によるクレーム検証は、その強力な推論能力と透過的な検証プロセスのため、近年注目を集めている。
我々は、LLMが検索エンジンと対話し、その計画、検索、推論行動を明確に形作る報酬信号を受け取ることができるオンライン強化学習フレームワークであるVeri-R1を紹介した。
実験の結果、Veri-R1は最大30%の精度で関節の精度を向上し、エビデンススコアを2倍にし、より大きなモデルを上回ることが示されている。
論文 参考訳(メタデータ) (2025-10-02T11:49:48Z) - CoRGI: Verified Chain-of-Thought Reasoning with Post-hoc Visual Grounding [1.6257248483123767]
textbfCoRGI(textbfChain textbffof textbfReasoning with textbfGrounded textbfInsights)は、チェーンオブ思考出力のポストホック検証により、推論信頼性を高めるフレームワークである。
論文 参考訳(メタデータ) (2025-08-01T07:17:12Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - From Relevance to Utility: Evidence Retrieval with Feedback for Fact Verification [118.03466985807331]
我々は、FVの関連性よりも、クレーム検証者が取得した証拠から導出する実用性に焦点を当てる必要があると論じる。
本稿では,エビデンス検索プロセスの最適化に,クレーム検証器からのフィードバックを取り入れたフィードバックベースのエビデンス検索手法(FER)を提案する。
論文 参考訳(メタデータ) (2023-10-18T02:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。