論文の概要: ProSR: Process-Shaped Spatial Reasoning for Reliable Chain-of-Thought in VLMs
- arxiv url: http://arxiv.org/abs/2605.25524v1
- Date: Mon, 25 May 2026 07:27:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.440924
- Title: ProSR: Process-Shaped Spatial Reasoning for Reliable Chain-of-Thought in VLMs
- Title(参考訳): ProSR: VLMの信頼性向上のためのプロセス形状空間推論
- Authors: Jiangyang Li, Cong Wan, Changjie Wu, Songlin Dong, Lingjun Zhang, Linzhe Shi, Xu Wang, Zhiheng Ma, Hang Zhang, Mu Xu, Yihong Gong,
- Abstract要約: 本稿では,空間推論のためのプロセス形成最適化フレームワークであるProSRを提案する。
ProSRは、最適化目標を単一回答の正しさから、視覚的依存と軌道安定性の2つのプロセスレベルに拡張する。
実験により、ProSRはより安定し、より視覚的証拠に依存する推論軌道を発生させながら、回答の精度を向上することが示された。
- 参考スコア(独自算出の注目度): 37.068201407788884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable spatial reasoning remains a core bottleneck for vision-language models (VLMs). Existing mainstream training paradigms for spatial reasoning largely rely on outcome alignment or process imitation, lacking explicit constraints on the reasoning process, and therefore struggle to ensure genuine visual dependence and stable reasoning trajectories. In this paper, we construct a high-quality CoT dataset covering diverse spatial phenomena and diagnose the model's reasoning process, revealing two typical types of process degradation during reinforcement learning optimization: Spurious Grounding, which bypasses visual evidence, and Tail Instability, where uncertainty abnormally rises in the later stage of reasoning. To address these issues, we propose ProSR, a process-shaping optimization framework for spatial reasoning. Through a Counterfactual Invariance Penalty and a Tail Drift Penalty, ProSR extends the optimization objective from single answer correctness to two process-level dimensions: visual dependence and trajectory stability. Experiments on multiple complex and out-of-distribution spatial reasoning benchmarks show that ProSR improves answer accuracy while generating reasoning trajectories that are more stable and more dependent on visual evidence.
- Abstract(参考訳): 信頼性の高い空間推論は、視覚言語モデル(VLM)のコアボトルネックであり続けている。
既存の空間的推論のための主流の訓練パラダイムは、結果のアライメントやプロセスの模倣に大きく依存しており、推論プロセスに明確な制約がないため、真の視覚的依存と安定した推論軌道を保証するのに苦労している。
本稿では,多種多様な空間現象を網羅した高品質なCoTデータセットを構築し,強化学習最適化におけるプロセス劣化の典型的なタイプとして,視覚的エビデンスをバイパスするSpurious Groundingと,推論の後期に不確実性が生じるTail Instabilityの2つを明らかにした。
これらの問題に対処するため,空間推論のためのプロセス形成最適化フレームワークであるProSRを提案する。
ProSRは、反現実的不変法則とTail Drift Penaltyを通じて、最適化目標を単一回答の正しさから、視覚的依存と軌道安定性の2つのプロセスレベルまで拡張する。
複数の複雑かつ分布外空間推論ベンチマークの実験により、ProSRはより安定で視覚的証拠に依存した推論軌跡を生成しながら解答精度を向上させることが示された。
関連論文リスト
- Reasoning on the Manifold: Bidirectional Consistency for Self-Verification in Diffusion Language Models [30.607422839762553]
BMC(Bidirectional Manifold Consistency)は、トレーニングなし、教師なしのメトリクスである。
BMCは、根拠となる真理の答えなしに、解の有効性の堅牢な判別器として機能する。
本研究は,dLLMの正当性を示す頑健な指標として,固有幾何安定性を確立した。
論文 参考訳(メタデータ) (2026-04-17T10:17:16Z) - SVSR: A Self-Verification and Self-Rectification Paradigm for Multimodal Reasoning [12.51459553492698]
自己検証と自己修正(Self-Verification and Self-Rectification、SVSR)は、モデルの推論パイプラインに自己検証と自己修正を統合する統合フレームワークである。
SVSRは複雑な視覚的理解とマルチモーダル推論タスクの堅牢性と信頼性を大幅に向上させる。
論文 参考訳(メタデータ) (2026-04-11T14:25:17Z) - Beyond Scalars: Evaluating and Understanding LLM Reasoning via Geometric Progress and Stability [32.78289130870447]
TRACEDは理論的な基底を持つ幾何学的運動学によって推論品質を評価するフレームワークである。
適切な推論は高い進行性,安定した軌道であるのに対し,幻覚は低い進行性,不安定なパターンによって特徴づけられる。
論文 参考訳(メタデータ) (2026-03-11T03:58:43Z) - Hit-RAG: Learning to Reason with Long Contexts via Preference Alignment [97.55382322103986]
Hit-RAGは認知的ボトルネックを解決するために設計された多段階の優先順位調整フレームワークである。
本手法は,3つの異なる段階を通じて外部証拠の利用を体系的に改善する。
論文 参考訳(メタデータ) (2026-03-07T04:05:27Z) - Learning Structured Reasoning via Tractable Trajectory Control [99.75278337895024]
Ctrl-Rは、トラクタブルな軌道制御を通じて構造化推論を学ぶためのフレームワークである。
Ctrl-Rは,従来達成できなかった推論パターンを効果的に探索し,内部化することができることを示す。
論文 参考訳(メタデータ) (2026-03-02T09:18:19Z) - GTS: Inference-Time Scaling of Latent Reasoning with a Learnable Gaussian Thought Sampler [54.10960908347221]
我々は、学習可能な密度から条件付きサンプリングとして潜在思考探索をモデル化し、このアイデアをガウス思想サンプリング(GTS)としてインスタンス化する。
GTSは、連続的推論状態における文脈依存摂動分布を予測し、バックボーンを凍結させながらGRPOスタイルのポリシー最適化を訓練する。
論文 参考訳(メタデータ) (2026-02-15T09:57:47Z) - On the Plasticity and Stability for Post-Training Large Language Models [54.757672540381236]
塑性と安定性勾配の矛盾として根本原因を同定する。
本稿では,確率的衝突解決法(PCR)を提案する。
PCRはトレーニングの軌道を著しく滑らかにし、様々な推論タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-06T07:31:26Z) - CASHEW: Stabilizing Multimodal Reasoning via Iterative Trajectory Aggregation [6.356820150960838]
視覚言語モデルを安定させるために,テスト時間スケーリングにインスパイアされた2つの補完的アプローチを導入する。
CASHEWは推論時のフレームワークで、複数の候補軌道を高品質な推論トレースに反復的に集約することで推論を安定化する。
CASHEW-RL はグループシーケンスポリシー最適化 (GSPO) を用いて訓練されており、最小でも十分な視覚的証拠に根ざした正しい回答を促す複合報酬が提供されている。
論文 参考訳(メタデータ) (2026-01-12T21:24:45Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。