論文の概要: CoRGI: Verified Chain-of-Thought Reasoning with Visual Grounding
- arxiv url: http://arxiv.org/abs/2508.00378v1
- Date: Fri, 01 Aug 2025 07:17:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.769477
- Title: CoRGI: Verified Chain-of-Thought Reasoning with Visual Grounding
- Title(参考訳): CoRGI: 視界の接地によるパターンの検証
- Authors: Shixin Yi, Lin Shang,
- Abstract要約: textbfCoRGI(textbfChain textbfof textbfReasoning with textbfGrounded textbfInsights)を提案する。
我々は、VCRベンチマーク上でCoRGIを評価し、2つの代表的なオープンソースVLMバックボーンの推論性能を改善することを発見した。
- 参考スコア(独自算出の注目度): 2.07180164747172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) prompting has shown promise in improving reasoning in vision-language models (VLMs), but it often produces explanations that are linguistically fluent yet lack grounding in visual content. We observe that such hallucinations arise in part from the absence of an explicit verification mechanism during multi-step reasoning. To address this, we propose \textbf{CoRGI}(\textbf{C}hain \textbf{o}f \textbf{R}easoning with \textbf{G}rounded \textbf{I}nsights), a modular framework that introduces visual verification into the reasoning process. CoRGI follows a three-stage pipeline: it first generates a textual reasoning chain, then extracts supporting visual evidence for each reasoning step via a dedicated module (VEVM), and finally synthesizes the textual rationale with visual evidence to generate a grounded, verified answer. The framework can be integrated with existing VLMs without end-to-end retraining. We evaluate CoRGI on the VCR benchmark and find that it improves reasoning performance on two representative open-source VLM backbones, Qwen-2.5VL and LLaVA-1.6. Ablation studies confirm the contribution of each step in the verification module, and human evaluations suggest that CoRGI leads to more factual and helpful explanations. We also examine alternative designs for the visual verification step and discuss potential limitations of post-hoc verification frameworks. These findings highlight the importance of grounding intermediate reasoning steps in visual evidence to enhance the robustness of multimodal reasoning.
- Abstract(参考訳): CoT(Chain-of-Thought)の促進は、視覚言語モデル(VLM)の推論を改善することを約束している。
このような幻覚は、多段階の推論において明示的な検証機構が欠如していることから生じる。
この問題に対処するため、我々は、推論プロセスに視覚的検証を導入するモジュラーフレームワークである \textbf{CoRGI}(\textbf{C}hain \textbf{o}f \textbf{R}easoning with \textbf{G}rounded \textbf{I}nsights を提案する。
CoRGIは、まずテキスト推論チェーンを生成し、その後、専用のモジュール(VEVM)を介して各推論ステップの視覚的エビデンスを抽出し、最後に、視覚的エビデンスで視覚的エビデンスを生成して、基礎的で検証された回答を生成する。
このフレームワークは、エンドツーエンドの再トレーニングなしで、既存のVLMと統合できる。
我々は、VCRベンチマーク上でCoRGIを評価し、2つの代表的なオープンソースVLMバックボーンであるQwen-2.5VLとLLaVA-1.6の推論性能を向上させることを発見した。
アブレーション研究は、検証モジュールにおける各ステップの寄与を確認し、人間による評価は、CoRGIがより現実的で有益な説明につながることを示唆している。
また、視覚的検証ステップの代替設計について検討し、ポストホック検証フレームワークの潜在的な限界について議論する。
これらの知見は,マルチモーダル推論のロバスト性を高めるために,視覚的証拠における中間的推論ステップのグラウンディングの重要性を浮き彫りにした。
関連論文リスト
- A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T17:02:52Z) - RSVP: Reasoning Segmentation via Visual Prompting and Multi-modal Chain-of-Thought [6.037123011622866]
RSVPは、多段階のマルチモーダル推論を基盤的な視覚的理解と統合するフレームワークである。
RSVPはMLLM固有のローカライゼーション機能を利用して、モデルがオブジェクトを推論するだけでなく、構造化された視覚表現を生成することができる。
実験では,ReasonSegの最先端性能を最大6.5 gIoUで上回り,ゼロショット設定でSegInW上で49.7 mAPを達成した。
論文 参考訳(メタデータ) (2025-06-04T02:07:40Z) - Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning [96.01617809845396]
Ground-R1は、明示的なエビデンスや合理的アノテーションを必要とせずに、基礎的な視覚的推論を可能にする強化学習フレームワークである。
グラウンドR1は優れた性能を示し、不確実性認識、空間認識、反復的洗練などの創発的な認知行動を示す。
論文 参考訳(メタデータ) (2025-05-26T17:51:47Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - GRIT: Teaching MLLMs to Think with Images [22.74533687444133]
Grounded Reasoning with Images and Texts (GRIT) はMLLMを画像で考えるための新しい手法である。
GRITは自然言語と明示的な境界ボックス座標をインターリーブする推論連鎖を生成する。
GRITは例外的なデータ効率を実現し、既存のデータセットから20のイメージクエスト・アンサートレットを必要とする。
論文 参考訳(メタデータ) (2025-05-21T17:54:49Z) - Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning [19.28434717501445]
視覚的推論能力は、複雑なマルチモーダルデータを理解する上で重要な役割を果たす。
既存の手法は、チェーン・オブ・ソートによる微調整によるVLM推論を改善する。
我々は新しい強化微調整フレームワークReason-RFTを提案する。
論文 参考訳(メタデータ) (2025-03-26T17:38:06Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom [41.369481426130186]
本稿ではProReasonという新しいビジュアル推論フレームワークを紹介する。
ProReasonは、分離されたビジョン推論機能とマルチランプロアクティブな知覚を備えている。
実験の結果, ProReasonは様々なベンチマークにおいて, 既存のマルチステップ推論フレームワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-18T03:22:06Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。