論文の概要: Thinking with Deltas: Incentivizing Reinforcement Learning via Differential Visual Reasoning Policy
- arxiv url: http://arxiv.org/abs/2601.06801v1
- Date: Sun, 11 Jan 2026 08:25:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.000641
- Title: Thinking with Deltas: Incentivizing Reinforcement Learning via Differential Visual Reasoning Policy
- Title(参考訳): デルタで考える:ディファレンシャルビジュアル推論ポリシーによる強化学習のインセンティブ
- Authors: Shujian Gao, Yuan Wang, Jiangtao Yan, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: 検証可能なリワードによる強化学習は、大規模言語モデルにおいてかなり高度な推論能力を持っている。
既存のパラダイムは、テキスト中心の成果報酬によって推進され、モデルが視覚的知覚をバイパスすることを奨励します。
我々はtextbfDifferential Visual Reasoning Policy によって駆動されるフレームワーク Deltas を用いた textbfThinking を提案する。
- 参考スコア(独自算出の注目度): 75.66913260900726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has significantly advanced reasoning capabilities in Large Language Models. However, adapting RLVR to multimodal domains suffers from a critical \textit{perception-reasoning decoupling}. Existing paradigms, driven by text-centric outcome rewards, reasoning in language medium, inadvertently encourage models to bypass visual perception. We empirically validate this through blind experiments: state-of-the-art policies maintain or surprisingly improve performance even when visual inputs are entirely removed. This reveals that these models degenerate into \textit{blind reasoners}, exploiting linguistic priors to generate plausible answers instead of attending to visual evidence. In response, we propose \textbf{Thinking with Deltas}, a framework driven by a \textbf{Differential Visual Reasoning Policy (DVRP)}. DVRP introduces intrinsic supervision via visual triplets, comprising original, masked, and perturbed inputs. It optimizes the model to maximize reasoning divergence from masked inputs (enforcing \textit{visual sensitivity}) while minimizing divergence from perturbed inputs (ensuring \textit{visual robustness}). By aligning reasoning variations strictly with the \textit{Delta} of visual information, DVRP inherently bolsters visual understanding capabilities and significantly outperforms state-of-the-art methods on both general and medical benchmarks, without requiring external annotations or auxiliary tools.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルにおいて非常に高度な推論能力を持つ。
しかし、マルチモーダル領域へのRLVRの適応は、臨界な \textit{perception-reasoning decoupling} に悩まされる。
既存のパラダイムは、テキスト中心の成果報酬、言語媒体での推論によって推進され、必然的にモデルに視覚的知覚を回避させる。
視覚的な入力を完全に削除しても、最先端のポリシーが維持されるか、驚くほどパフォーマンスが向上します。
このことから、これらのモデルは「textit{blind reasoners}」に縮退し、視覚的証拠に出席する代わりに、言語的先行性を利用してもっともらしい答えを生成することが分かる。
そこで本研究では,DVRPによって駆動されるフレームワークである‘textbf{Thinking with Deltas} を提案する。
DVRPは、オリジナル、マスク付き、摂動入力を含む視覚三つ子を介して本質的な監視を導入する。
マスクされた入力からの推論の発散を最大化し( \textit{visual sensitivity} を強制)、摂動された入力からの発散を最小化する( \textit{visual robustness} の保証)。
推論のバリエーションを視覚情報の‘textit{Delta}’と厳密に整合させることによって、DVRPは本質的に視覚的理解能力を高め、外部アノテーションや補助ツールを必要とせずに、一般的なベンチマークと医療ベンチマークの両方で最先端の手法を大幅に上回る。
関連論文リスト
- Stable Language Guidance for Vision-Language-Action Models [62.80963701282789]
残留セマンティックステアリング(Residual Semantic Steering)は、セマンティック実行から身体的余裕を逸脱する確率的フレームワークである。
RSSは最先端の堅牢性を実現し、敵対的な言語摂動の下でも性能を維持する。
論文 参考訳(メタデータ) (2026-01-07T16:16:10Z) - Latent Visual Reasoning [40.347006722601975]
視覚埋め込み空間に直接自己回帰推論を可能にする新しいパラダイムであるLatent Visual Reasoning(LVR)を紹介する。
その結果,LVRは細粒度視認と知覚を著しく改善し,MMVPでは71.67%,Qwen2.5-VLでは66.67%であった。
論文 参考訳(メタデータ) (2025-09-29T03:52:01Z) - Self-Rewarding Vision-Language Model via Reasoning Decomposition [49.784411666601905]
VLM(Vision-Language Models)はしばしば視覚幻覚に悩まされ、実際に画像にないものや言語ショートカットが語られる。
本稿では,外部視覚監督に頼らずに視覚推論を改善する自己回帰手法であるVision-SR1を紹介する。
我々の実験は、Vision-SR1が視覚的推論を改善し、視覚幻覚を緩和し、言語ショートカットへの依存を減らすことを示した。
論文 参考訳(メタデータ) (2025-08-27T08:01:03Z) - D-Attn: Decomposed Attention for Large Vision-and-Language Models [29.611769371733672]
大規模視覚・言語モデル(LVLM)のためのより柔軟な注意アーキテクチャである分解注意アーキテクチャ(D-Attn)を提案する。
D-AttnはLVLMの1次元因果自認を視覚的・視覚的・視覚的・テキスト的・テキスト的に分解する。
実験と解析によりD-Attnの有効性が検証され、複数の画像ベンチマークで大幅な改善が示された。
論文 参考訳(メタデータ) (2025-02-04T00:46:11Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Interpretable Visual Question Answering via Reasoning Supervision [4.76359068115052]
トランスフォーマーベースのアーキテクチャは、最近Visual Question Answering (VQA)タスクで顕著なパフォーマンスを示している。
本稿では,視覚的質問応答のための新しいアーキテクチャを提案する。
提案手法がモデルの視覚知覚能力を向上し,性能向上につながることを定量的かつ定性的に示す。
論文 参考訳(メタデータ) (2023-09-07T14:12:31Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。