論文の概要: VG-CoT: Towards Trustworthy Visual Reasoning via Grounded Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2604.21396v1
- Date: Thu, 23 Apr 2026 08:04:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.377848
- Title: VG-CoT: Towards Trustworthy Visual Reasoning via Grounded Chain-of-Thought
- Title(参考訳): VG-CoT:グラウンドド・オブ・サートによる信頼できるビジュアル推論を目指して
- Authors: Byeonggeuk Lim, Kyeonghyun Kim, JungMin Yun, YoungBin Kim,
- Abstract要約: 画像内の実際の視覚的証拠に、各推論ステップを明示的にリンクするVisual Grounding Chain-of-Thoughtデータセットを提案する。
パイプラインは、GPT-4oでステップバイステップのグラウンドド推論を生成し、合理的に駆動されるオープンセット検出プロセスを通じてグラウンドディングを洗練する。
LLaVA-1.5やQwen2-VLを含む代表的なLVLMによる実験は、ほとんどの評価指標に対して一貫した改善を示した。
- 参考スコア(独自算出の注目度): 16.361394107862502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advancement of Large Vision-Language Models (LVLMs) requires precise local region-based reasoning that faithfully grounds the model's logic in actual visual evidence. However, existing datasets face limitations in scalability due to extensive manual annotation and lack of explicit alignment between multi-step reasoning and corresponding image regions, which constrains the evaluation of model trustworthiness. To address these challenges, we propose the Visual Grounding Chain-of-Thought (VG-CoT) dataset, which explicitly links each reasoning step to real visual evidence within the image through a fully automated three-stage pipeline. The pipeline first extracts object- and text-level visual evidence using state-of-the-art detection and OCR models, then generates step-by-step grounded reasoning with GPT-4o, and finally refines the grounding through a rationale-driven open-set detection process. In addition, we introduce a new benchmark that comprehensively evaluates LVLMs reasoning across three complementary dimensions: Rationale Quality, Answer Accuracy, and Reasoning-Answer Alignment. Experiments with representative LVLMs, including LLaVA-1.5 and Qwen2-VL, demonstrate consistent improvements on most evaluation metrics, confirming that VG-CoT effectively enhances trustworthy, evidence-based reasoning while maintaining scalable and cost-efficient dataset construction. The dataset and code will be released publicly upon acceptance to facilitate further research.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の進歩は、実際の視覚的証拠にモデルの論理を忠実に基礎付ける、正確な局所的推論を必要とする。
しかし、既存のデータセットは、広範囲な手動アノテーションと、モデル信頼性の評価を制限する多段階推論と対応する画像領域との明示的な整合性の欠如により、スケーラビリティの限界に直面している。
これらの課題に対処するために、完全に自動化された3段階のパイプラインを通じて、各推論ステップを画像内の実際の視覚的エビデンスに明示的にリンクするVisual Grounding Chain-of-Thought(VG-CoT)データセットを提案する。
パイプラインはまず、最先端検出モデルとOCRモデルを用いてオブジェクトレベルとテキストレベルの視覚的証拠を抽出し、次に、GPT-4oによるステップバイステップの基底的推論を生成し、最後に、合理的に駆動されたオープンセット検出プロセスを通じてグラウンドを洗練する。
さらに,Rationale Quality, Answer Accuracy, Reasoning-Answer Alignmentの3つの相補的な次元におけるLVLM推論を総合的に評価する新しいベンチマークを導入する。
LLaVA-1.5やQwen2-VLといった代表的LVLMによる実験は、ほとんどの評価指標に対して一貫した改善を示し、VG-CoTは、スケーラブルで費用効率のよいデータセット構築を維持しながら、信頼性の高いエビデンスベースの推論を効果的に強化することを確認した。
データセットとコードは、さらなる研究を促進するために、受け入れられ次第公開されます。
関連論文リスト
- More Than the Final Answer: Improving Visual Extraction and Logical Consistency in Vision-Language Models [74.10138874771852]
RLVR上で視覚知覚とテキスト推論を別々に改善する分離されたフレームワークであるPeRL-VL(Perception and Reasoning Learning for Vision-Language Models)を提案する。
知覚のために、PeRL-VLはVLMに基づく説明報酬を導入し、モデルの自己生成した画像記述を忠実さと満足度で評価する。
推論のために、PeRL-VLは論理に富んだチェーン・オブ・シントデータに関するテキストのみの推論SFTステージを追加し、コヒーレンスと論理的一貫性を視覚と独立に強化する。
論文 参考訳(メタデータ) (2025-12-13T23:06:18Z) - Look As You Think: Unifying Reasoning and Visual Evidence Attribution for Verifiable Document RAG via Reinforcement Learning [55.232400251303794]
Look As You Think (LAT)は、モデルをトレーニングし、一貫した帰属性を持った検証可能な推論パスを生成するための強化学習フレームワークである。
LATはシングルイメージとマルチイメージの両方でバニラモデルを一貫して改善し、平均ゲインは8.23%、IoU@0.5では47.0%となる。
論文 参考訳(メタデータ) (2025-11-15T02:50:23Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - RT-VLM: Re-Thinking Vision Language Model with 4-Clues for Real-World Object Recognition Robustness [2.9979091009694088]
現実世界のデプロイメントは、しばしば、最新のオブジェクト認識モデルをドメインシフトに公開し、精度を著しく低下させる。
この劣化を軽減するため、我々はRT-VLM(Re-Thinking Vision Language Model)フレームワークを導入する。
論文 参考訳(メタデータ) (2025-09-01T02:13:00Z) - CoRGI: Verified Chain-of-Thought Reasoning with Post-hoc Visual Grounding [1.6257248483123767]
textbfCoRGI(textbfChain textbffof textbfReasoning with textbfGrounded textbfInsights)は、チェーンオブ思考出力のポストホック検証により、推論信頼性を高めるフレームワークである。
論文 参考訳(メタデータ) (2025-08-01T07:17:12Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。