論文の概要: VisRAG 2.0: Evidence-Guided Multi-Image Reasoning in Visual Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2510.09733v1
- Date: Fri, 10 Oct 2025 13:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.598641
- Title: VisRAG 2.0: Evidence-Guided Multi-Image Reasoning in Visual Retrieval-Augmented Generation
- Title(参考訳): VisRAG 2.0:ビジュアル検索拡張ジェネレーションにおけるエビデンスガイドによるマルチイメージ推論
- Authors: Yubo Sun, Chunyi Peng, Yukun Yan, Shi Yu, Zhenghao Liu, Chi Chen, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 視覚検索強化世代(VRAG)は視覚言語モデル(VLM)を外的視覚知識で拡張し、基礎推論を行い幻覚を減らす。
しかし、現在のVRAGシステムは、複数の画像に対して確実な認識と証拠の統合に失敗し、根拠の弱さと誤った結論に繋がることが多い。
EVisRAGは,エビデンス誘導型マルチイメージで推論を学習し,この問題に対処するエンド・ツー・エンドのフレームワークである。
- 参考スコア(独自算出の注目度): 64.82775032985485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual retrieval-augmented generation (VRAG) augments vision-language models (VLMs) with external visual knowledge to ground reasoning and reduce hallucinations. Yet current VRAG systems often fail to reliably perceive and integrate evidence across multiple images, leading to weak grounding and erroneous conclusions. In this paper, we propose EVisRAG, an end-to-end framework that learns to reason with evidence-guided multi-image to address this issue. The model first observes retrieved images and records per-image evidence, then derives the final answer from the aggregated evidence. To train EVisRAG effectively, we introduce Reward-Scoped Group Relative Policy Optimization (RS-GRPO), which binds fine-grained rewards to scope-specific tokens to jointly optimize visual perception and reasoning abilities of VLMs. Experimental results on multiple visual question answering benchmarks demonstrate that EVisRAG delivers substantial end-to-end gains over backbone VLM with 27\% improvements on average. Further analysis shows that, powered by RS-GRPO, EVisRAG improves answer accuracy by precisely perceiving and localizing question-relevant evidence across multiple images and deriving the final answer from that evidence, much like a real detective.
- Abstract(参考訳): 視覚検索強化世代(VRAG)は視覚言語モデル(VLM)を外的視覚知識で拡張し、基礎推論を行い幻覚を減らす。
しかし、現在のVRAGシステムは、複数の画像に対して確実な認識と証拠の統合に失敗し、根拠の弱さと誤った結論に繋がることが多い。
本稿では,EVisRAGを提案する。EVisRAGは,エビデンス誘導型マルチイメージで推論を学習し,この問題に対処するフレームワークである。
モデルはまず検索した画像と画像毎の証拠を観察し、次に集計された証拠から最終回答を導出する。
EVisRAGを効果的に訓練するために、視覚知覚とVLMの推論能力を協調的に最適化するために、スコープ固有のトークンに微粒な報酬を結合するReward-Scoped Group Relative Policy Optimization (RS-GRPO)を導入する。
複数の視覚的質問応答ベンチマークによる実験結果から、EVisRAGは背骨VLMよりも実質的なエンドツーエンドのゲインを実現し、平均で27倍の改善を実現している。
EVisRAGはRS-GRPOを利用して、複数の画像にまたがる質問関連証拠を正確に認識し、その証拠から最終回答を導き出すことにより、解答精度を向上させる。
関連論文リスト
- VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning [49.610569478718226]
マルチモーダル報酬モデル(RM)は、視覚生成モデルのトレーニング後を大幅に改善した。
VideoReward Thinker (VR-Thinker)は、RMに視覚的推論操作と視覚的メモリウィンドウを備えた思考とイメージのフレームワークである。
提案手法は,映像選好ベンチマークにおいて,オープンソースモデル間で最先端の精度を提供する。
論文 参考訳(メタデータ) (2025-10-12T09:29:50Z) - CoRGI: Verified Chain-of-Thought Reasoning with Post-hoc Visual Grounding [1.6257248483123767]
textbfCoRGI(textbfChain textbffof textbfReasoning with textbfGrounded textbfInsights)は、チェーンオブ思考出力のポストホック検証により、推論信頼性を高めるフレームワークである。
論文 参考訳(メタデータ) (2025-08-01T07:17:12Z) - Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - Visual-RFT: Visual Reinforcement Fine-Tuning [75.20572976629646]
OpenAI o1のような大規模推論モデルにおける強化ファインチューニング(RFT)は、回答に対するフィードバックから学ぶ。
Visual-RFTはさらに、視覚タスクにおけるRTTの適用領域を拡張している。
論文 参考訳(メタデータ) (2025-03-03T18:16:32Z) - ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents [27.90338725230132]
ViDoSeekは複雑な推論を必要とする視覚的にリッチなドキュメント上でのRAGパフォーマンスを評価するために設計されたデータセットである。
視覚文書間の複雑な推論に適した新しいマルチエージェントRAGフレームワークであるViDoRAGを提案する。
特にViDoRAGは、競合するViDoSeekベンチマークで既存のメソッドを10%以上上回っている。
論文 参考訳(メタデータ) (2025-02-25T09:26:12Z) - Visual-RAG: Benchmarking Text-to-Image Retrieval Augmented Generation for Visual Knowledge Intensive Queries [30.692007887121278]
Retrieval-augmented Generation (RAG)は、知識集約的な質問に対処するために、外部知識で大きな言語モデルを拡張する。
Visual-RAGは、視覚的に根ざした知識集約的な質問を対象とする質問回答ベンチマークである。
我々は,5つのオープンソースと3つのプロプライエタリなMLLMを評価し,画像が拡張世代において強力な証拠となることを示す。
論文 参考訳(メタデータ) (2025-02-23T16:23:50Z) - UniRAG: Universal Retrieval Augmentation for Large Vision Language Models [76.30799731147589]
そこで,UniRAGというプラグイン・アンド・プレイ技術を紹介した。
Retrieval Augmentation(RA)は、主に非一般的なエンティティの生成や理解を改善するという一般的な信念とは異なり、MSCOCOデータセットの共通エンティティによる評価結果は、プロプライエタリモデルとより小さなオープンソースモデルの両方が生成品質を著しく向上させることを示している。
論文 参考訳(メタデータ) (2024-05-16T17:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。