論文の概要: PDCR: Perception-Decomposed Confidence Reward for Vision-Language Reasoning
- arxiv url: http://arxiv.org/abs/2605.13467v1
- Date: Wed, 13 May 2026 12:55:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.053424
- Title: PDCR: Perception-Decomposed Confidence Reward for Vision-Language Reasoning
- Title(参考訳): PDCR : 視覚言語推論における認識分解信頼度
- Authors: Hee Suk Yoon, Eunseop Yoon, Ji Woo Hong, SooHwan Eom, Gwanhyeong Koo, Mark Hasegawa-Johnson, Qi Dai, Chong Luo, Chang D. Yoo,
- Abstract要約: Reinforcement Learning with Verifiable Rewards (RLVR) は伝統的に、粗末で結果に基づく信号に依存している。
近年の研究では,高コストな外部モデルを必要としないステップレベルのガイダンスを提供することで,詳細なモデル固有の信号を提供することで,言語推論のトレーニングを効果的に向上することが示された。
一助文には有効であるが,この大域的な報酬を視覚言語推論(V-L)に適用することは準最適戦略である。
本稿では、報酬構造とタスクの不均一な性質を整合させることにより、この問題を解決するフレームワークであるパーセプション分解信頼回復(PDCR:Perception-Decomposed Confidence Reward)を提案する。
- 参考スコア(独自算出の注目度): 80.94559742826083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) traditionally relies on a sparse, outcome-based signal. Recent work shows that providing a fine-grained, model-intrinsic signal (rewarding the confidence growth in the ground-truth answer) effectively improves language reasoning training by providing step-level guidance without costly external models. While effective for unimodal text, we find that naively applying this global reward to vision-language (V-L) reasoning is a suboptimal strategy, as the task is a heterogeneous mix of sparse visual perception and dense textual reasoning. This global normalization creates mixture-induced signal degradation, where the training signal for visual steps is statistically distorted by the predominant textual steps. We propose Perception-Decomposed Confidence Reward (PDCR), a framework that solves this by aligning the reward structure with the task's heterogeneous nature. PDCR first performs an unsupervised skill decomposition, introducing a model-internal Visual Dependence Score to quantify visual reliance and applying a clustering algorithm to separate perception and reasoning steps. Based on this, PDCR computes a decomposed advantage by normalizing confidence gains within each skill cluster. This intra-cluster normalization provides a stable, correctly-scaled signal for both perception and reasoning. We demonstrate that PDCR outperforms the naive, global-reward formulation and sparse-reward baselines on key V-L reasoning benchmarks.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は伝統的に、粗末で結果に基づく信号に依存している。
最近の研究は、きめ細かなモデル内在的な信号を提供することで、コストのかかる外部モデルなしでステップレベルのガイダンスを提供することで、言語推論訓練を効果的に改善することを示している。
一助文には有効であるが,この大域的な報酬を視覚言語推論(V-L)に適用することは,不均一な視覚知覚と密接なテキスト推論の混合であるため,準最適戦略であることがわかった。
このグローバルな正規化は混合誘起信号劣化を引き起こし、視覚ステップの訓練信号は支配的なテキストステップによって統計的に歪められる。
本稿では、報酬構造とタスクの不均一な性質を整合させることにより、この問題を解決するフレームワークであるパーセプション分解信頼回復(PDCR:Perception-Decomposed Confidence Reward)を提案する。
PDCRはまず教師なしのスキル分解を行い、視覚的依存を定量化するためのモデル内部のVisual Dependence Scoreを導入し、クラスタリングアルゴリズムを適用して知覚と推論のステップを分離する。
これに基づいて、PDCRは、各スキルクラスタ内の信頼ゲインを正規化することにより、分解された利点を算出する。
このクラスタ内正規化は、知覚と推論の両方に対して安定かつ正しくスケールされた信号を提供する。
PDCRは,鍵となるV-L推論ベンチマークにおいて,単純で大域的・大域的・大域的・大域的・大域的・大域的なベースラインよりも優れていることを示す。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Not All Tokens See Equally: Perception-Grounded Policy Optimization for Large Vision-Language Models [38.47027398567909]
Perception-Grounded Policy Optimization (PGPO)は、トークンレベルでのメリットを動的に再評価する、新しいきめ細かなクレジット割り当てフレームワークである。
PGPOは,言語的先行音からの勾配雑音を抑えつつ,視覚的に依存するトークンの学習信号を積極的に増幅することを示す。
理論的および実証的な分析は、PGPOが勾配の分散を効果的に減少させ、訓練の崩壊を防ぎ、頑健で知覚的なマルチモーダル推論のための強力な正則化剤として機能することを確認する。
論文 参考訳(メタデータ) (2026-04-02T09:53:20Z) - Where Relevance Emerges: A Layer-Wise Study of Internal Attention for Zero-Shot Re-Ranking [40.652380579951206]
In-Context Re- rank (ICR) は、最近$O(1)$代替メソッドとして提案されている。
ICRは内部の注意信号を直接抽出し、テキスト生成のオーバーヘッドを回避する。
統一的な研究は、内部の注意を従来の生成的および可能性に基づくメカニズムと比較していない。
論文 参考訳(メタデータ) (2026-02-26T03:51:31Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。