論文の概要: Bad Seeing or Bad Thinking? Rewarding Perception for Vision-Language Reasoning
- arxiv url: http://arxiv.org/abs/2605.14054v1
- Date: Wed, 13 May 2026 19:23:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.476934
- Title: Bad Seeing or Bad Thinking? Rewarding Perception for Vision-Language Reasoning
- Title(参考訳): 悪い視線か悪い思考か : 視覚言語推論における知覚の逆転
- Authors: Haozhe Wang, Qixin Xu, Changpeng Wang, Taofeng Xue, Chong Peng, Wenhu Chen, Fangzhen Lin,
- Abstract要約: このトレードオフの根本原因は、モダリティクレジットの割り当ての曖昧さにあると我々は主張する。
本稿では,知覚推論のシナジーを改善する強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 45.319525299206866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving robust perception-reasoning synergy is a central goal for advanced Vision-Language Models (VLMs). Recent advancements have pursued this goal via architectural designs or agentic workflows. However, these approaches are often limited by static textual reasoning or complicated by the significant compute and engineering burden of external agentic complexity. Worse, this heavy investment does not yield proportional gains, often witnessing a "seesaw effect" on perception and reasoning. This motivates a fundamental rethinking of the true bottleneck. In this paper, we argue that the root cause of this trade-off is an ambiguity in modality credit assignment: when a VLM fails, is it due to flawed perception ("bad seeing") or flawed logic ("bad thinking")? To resolve this, we introduce a reinforcement learning framework that improves perception-reasoning synergy by reliably rewarding the perception fidelity. We explicitly decompose the generation process into interleaved perception and reasoning steps. This decoupling enables targeted supervision on perception. Crucially, we introduce Perception Verification (PV), leveraging a "blindfolded reasoning" proxy to reward perceptual fidelity independently of reasoning outcomes. Furthermore, to scale training across free-form VL tasks, we propose Structured Verbal Verification, which replaces high-variance LLM judging with structured algorithmic execution. These techniques are integrated into a Modality-Aware Credit Assignment (MoCA) mechanism, which routes rewards to the specific source of error -- either bad seeing or bad thinking -- enabling a single VLM to achieve simultaneous performance gains across a wide task spectrum.
- Abstract(参考訳): 堅牢な知覚推論の相乗効果は、高度な視覚言語モデル(VLM)の中心的な目標である。
近年の進歩は、アーキテクチャ設計やエージェントワークフローを通じてこの目標を追求している。
しかしながら、これらのアプローチは静的なテキスト推論によって制限される場合や、外部エージェントの複雑さによる計算と工学の重荷によって複雑になる場合が多い。
さらに悪いことに、この重い投資は比例的な利益をもたらしず、しばしば知覚と推論に対する「シーソー効果」を目撃する。
これは真のボトルネックを根本的に再考する動機となっている。
本稿では,このトレードオフの根本原因はモダリティ・クレジットの割り当ての曖昧さである,と論じる。VLMが失敗したとき,それは欠陥された知覚("悪い目")あるいは欠陥のある論理("悪い思考")によるのか?
そこで本研究では,知覚の忠実さを確実に報い,知覚の相乗効果を向上させる強化学習フレームワークを提案する。
我々は、生成過程をインターリーブされた知覚と推論ステップに明示的に分解する。
この分離は、知覚の標的となる監督を可能にする。
重要な点として,我々は,知覚検証(PV)を導入し,推論結果とは無関係に知覚の忠実さを報ずるために,"盲目的推論(blindfolded reasoning)"プロキシを活用する。
さらに,自由形式VLタスク間の学習をスケールするために,構造化アルゴリズムを用いて高分散LLMを置き換える構造化言語検証を提案する。
これらのテクニックはModality-Aware Credit Assignment (MoCA)メカニズムに統合される。これは、報酬をエラーの特定のソース(悪い視線か悪い思考のどちらか)にルーティングするメカニズムであり、単一のVLMが幅広いタスクスペクトルにわたって同時のパフォーマンス向上を達成することを可能にする。
関連論文リスト
- Can VLMs Reason Robustly? A Neuro-Symbolic Investigation [24.000218548502875]
VLM(Vision-Language Models)は、様々な推論タスクに適用されている。
分布シフトの下で頑健に動作できるかは、まだ不明である。
本稿では,VLMに基づく概念認識と回路に基づくシンボリック推論を組み合わせたニューロシンボリック手法を提案する。
論文 参考訳(メタデータ) (2026-03-25T02:48:42Z) - Reward Modeling for Reinforcement Learning-Based LLM Reasoning: Design, Challenges, and Evaluation [46.38008143057758]
大きな言語モデル(LLM)は変革の可能性を示しているが、その推論は矛盾し、信頼できないままである。
この研究は、報酬モデリングは単なる実装の詳細ではなく、推論アライメントの中心的なアーキテクトであると主張している。
本枠組みでは,報奨機構の分類,報奨ハッキングを広範にわたる障害モードとして分析し,報奨が課題を統一する方法について検討する。
論文 参考訳(メタデータ) (2026-02-10T00:45:24Z) - Towards Generalizable Reasoning: Group Causal Counterfactual Policy Optimization for LLM Reasoning [50.352417879912515]
大規模言語モデル(LLM)は推論能力の進歩とともに複雑なタスクに優れる。
一般化可能な推論パターンを学習するために,LLMを明示的に訓練するためのグループ因果政策最適化を提案する。
次に、この報酬からトークンレベルのアドバンテージを構築し、ポリシーを最適化し、LCMにプロセス無効で事実上堅牢な推論パターンを推奨します。
論文 参考訳(メタデータ) (2026-02-06T08:03:11Z) - Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization [56.59356959631999]
Gated Perception-Reasoning Optimization (GPRO) は3つの決定経路間で動的に計算をルーティングするメタ推論コントローラである。
GPROは精度と効率を大幅に改善し、最近のスロー思考法よりも優れている。
論文 参考訳(メタデータ) (2026-01-07T23:05:17Z) - Cognitive Inception: Agentic Reasoning against Visual Deceptions by Injecting Skepticism [81.39177645864757]
完全推論に基づくエージェント推論フレームワークであるtextbfInception を提案する。
私たちの知る限りでは、AIGCの視覚的騙しに対する完全な推論ベースのフレームワークとしてはこれが初めてです。
論文 参考訳(メタデータ) (2025-11-21T05:13:30Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。