論文の概要: CoRGI: Verified Chain-of-Thought Reasoning with Post-hoc Visual Grounding
- arxiv url: http://arxiv.org/abs/2508.00378v3
- Date: Tue, 14 Oct 2025 09:15:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 14:23:56.798059
- Title: CoRGI: Verified Chain-of-Thought Reasoning with Post-hoc Visual Grounding
- Title(参考訳): CoRGI: ホック後の視覚的グラウンディングによる整合性検証
- Authors: Shixin Yi, Lin Shang,
- Abstract要約: textbfCoRGI(textbfChain textbffof textbfReasoning with textbfGrounded textbfInsights)は、チェーンオブ思考出力のポストホック検証により、推論信頼性を高めるフレームワークである。
- 参考スコア(独自算出の注目度): 1.6257248483123767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal reasoning with vision-language models (VLMs) often suffers from hallucinations, as models tend to generate explanations after only a superficial inspection of the image. We present \textbf{CoRGI}(\textbf{C}hain \textbf{o}f \textbf{R}easoning with \textbf{G}rounded \textbf{I}nsights), a framework that enhances reasoning reliability through post-hoc verification of chain-of-thought outputs. Given a VLM-generated rationale, CoRGI decomposes it into step-wise statements, grounds each step in visual evidence, and filters or corrects unsupported claims before producing the final answer. Experiments on five challenging benchmark-VCR, ScienceQA, MMMU, MathVista, and HallusionBenc-demonstrate that CoRGI consistently improves both answer accuracy and explanation faithfulness across multiple VLM backbones, including Qwen-2.5VL, LLaVA-1.6, and Gemma3-12B. Beyond quantitative gains, qualitative analyses further illustrate how the verification process reduces hallucination and strengthens interpretability, suggesting that post-hoc visual grounding is a promising direction for building more trustworthy and transparent multimodal reasoning systems.
- Abstract(参考訳): 視覚言語モデル(VLM)を用いたマルチモーダル推論はしばしば幻覚に悩まされる。
ここでは, チェーン・オブ・シント出力のポスト・ホック検証により, 推論信頼性を高めるフレームワークである, \textbf{CoRGI}(\textbf{C}hain \textbf{o}f \textbf{R}easoning with \textbf{G}rounded \textbf{I}nsightsを提案する。
VLM生成論理が与えられた後、CoRGIはそれをステップワイズな文に分解し、視覚的証拠の各々のステップを根拠にし、最終回答を生成する前に、支持できないクレームをフィルタリングまたは修正する。
VCR、ScienceQA、MMMU、MathVista、HalusionBenc-demonstrateの5つの挑戦的なベンチマーク実験では、CoRGIはQwen-2.5VL、LLaVA-1.6、Gemma3-12Bを含む複数のVLMバックボーンの応答精度と説明忠実性を一貫して改善している。
定量的な利得を超えて、定性的な分析は、検証プロセスが幻覚を減らし、解釈可能性を強化する方法をさらに説明し、ホック後の視覚的接地が、より信頼性が高く透明なマルチモーダル推論システムを構築するための有望な方向であることを示唆している。
関連論文リスト
- A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T17:02:52Z) - RSVP: Reasoning Segmentation via Visual Prompting and Multi-modal Chain-of-Thought [6.037123011622866]
RSVPは、多段階のマルチモーダル推論を基盤的な視覚的理解と統合するフレームワークである。
RSVPはMLLM固有のローカライゼーション機能を利用して、モデルがオブジェクトを推論するだけでなく、構造化された視覚表現を生成することができる。
実験では,ReasonSegの最先端性能を最大6.5 gIoUで上回り,ゼロショット設定でSegInW上で49.7 mAPを達成した。
論文 参考訳(メタデータ) (2025-06-04T02:07:40Z) - Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning [96.01617809845396]
Ground-R1は、明示的なエビデンスや合理的アノテーションを必要とせずに、基礎的な視覚的推論を可能にする強化学習フレームワークである。
グラウンドR1は優れた性能を示し、不確実性認識、空間認識、反復的洗練などの創発的な認知行動を示す。
論文 参考訳(メタデータ) (2025-05-26T17:51:47Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - GRIT: Teaching MLLMs to Think with Images [22.74533687444133]
Grounded Reasoning with Images and Texts (GRIT) はMLLMを画像で考えるための新しい手法である。
GRITは自然言語と明示的な境界ボックス座標をインターリーブする推論連鎖を生成する。
GRITは例外的なデータ効率を実現し、既存のデータセットから20のイメージクエスト・アンサートレットを必要とする。
論文 参考訳(メタデータ) (2025-05-21T17:54:49Z) - Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning [19.28434717501445]
視覚的推論能力は、複雑なマルチモーダルデータを理解する上で重要な役割を果たす。
既存の手法は、チェーン・オブ・ソートによる微調整によるVLM推論を改善する。
我々は新しい強化微調整フレームワークReason-RFTを提案する。
論文 参考訳(メタデータ) (2025-03-26T17:38:06Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom [41.369481426130186]
本稿ではProReasonという新しいビジュアル推論フレームワークを紹介する。
ProReasonは、分離されたビジョン推論機能とマルチランプロアクティブな知覚を備えている。
実験の結果, ProReasonは様々なベンチマークにおいて, 既存のマルチステップ推論フレームワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-18T03:22:06Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。