論文の概要: Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization
- arxiv url: http://arxiv.org/abs/2604.08476v1
- Date: Thu, 09 Apr 2026 17:15:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.042796
- Title: Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization
- Title(参考訳): Faithful GRPO:制約付きポリシー最適化によるマルチモーダル言語モデルにおける視覚空間推論の改善
- Authors: Sai Srinivas Kancheti, Aditya Kanade, Rohit Sinha, Vineeth N Balasubramanian, Tanuja Ganu,
- Abstract要約: Chain-of-Thoughtトレースは、最終的な回答と矛盾することが多く、視覚的証拠が不十分である。
ラグランジアン二重昇華による制約として整合性と接地を強制するFithful GRPOを提案する。
その結果,FGRPOは推論品質を大幅に改善し,不整合率を24.5%から1.7%に下げ,視覚的接点スコアを+13%改善した。
- 参考スコア(独自算出の注目度): 31.411469692692766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal reasoning models (MRMs) trained with reinforcement learning with verifiable rewards (RLVR) show improved accuracy on visual reasoning benchmarks. However, we observe that accuracy gains often come at the cost of reasoning quality: generated Chain-of-Thought (CoT) traces are frequently inconsistent with the final answer and poorly grounded in the visual evidence. We systematically study this phenomenon across seven challenging real-world spatial reasoning benchmarks and find that it affects contemporary MRMs such as ViGoRL-Spatial, TreeVGR as well as our own models trained with standard Group Relative Policy Optimization (GRPO). We characterize CoT reasoning quality along two complementary axes: "logical consistency" (does the CoT entail the final answer?) and "visual grounding" (does each reasoning step accurately describe objects, attributes, and spatial relationships in the image?). To address this, we propose Faithful GRPO (FGRPO), a variant of GRPO that enforces consistency and grounding as constraints via Lagrangian dual ascent. FGRPO incorporates batch-level consistency and grounding constraints into the advantage computation within a group, adaptively adjusting the relative importance of constraints during optimization. We evaluate FGRPO on Qwen2.5-VL-7B and 3B backbones across seven spatial datasets. Our results show that FGRPO substantially improves reasoning quality, reducing the inconsistency rate from 24.5% to 1.7% and improving visual grounding scores by +13%. It also improves final answer accuracy over simple GRPO, demonstrating that faithful reasoning enables better answers.
- Abstract(参考訳): RLVRを用いた強化学習によるマルチモーダル推論モデル(MRM)は、視覚的推論ベンチマークにおける精度の向上を示す。
生成したCoT(Chain-of-Thought)トレースは最終回答と矛盾することが多く、視覚的証拠が不十分である。
我々は,この現象を実世界の空間的推論ベンチマーク7つで体系的に研究し,VoGoRL-SpatialやTreeVGRといった現代MRMや,標準グループ相対ポリシー最適化(GRPO)で訓練された我々のモデルに影響を及ぼすことを示した。
我々は、CoT推論の品質を、2つの相補的な軸に沿って特徴付けている:「論理的一貫性」(CoTは最終回答を含んでいるか?)と「視覚的基礎」(各推論ステップは、画像内のオブジェクト、属性、空間的関係を正確に記述しているか?)。
これを解決するために、ラグランジアン双対昇華による制約として一貫性と接地を強制するGRPOの変種であるFithful GRPO(FGRPO)を提案する。
FGRPOは、バッチレベルの一貫性とグラウンディング制約をグループ内の有利な計算に組み込み、最適化中の制約の相対的重要性を適応的に調整する。
7つの空間データセットにわたるQwen2.5-VL-7Bと3Bのバックボーン上でFGRPOを評価する。
その結果,FGRPOは推論品質を大幅に改善し,不整合率を24.5%から1.7%に下げ,視覚的接点スコアを+13%改善した。
また、単純なGRPOよりも最終的な回答精度を改善し、忠実な推論がより良い回答を可能にすることを示す。
関連論文リスト
- iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization [20.66452395111739]
識別性を考慮したグループ相対ポリシー最適化(DaGRPO)を提案する。
DaGRPOは,(1)微粒なスコアリングを利用して,低差別性でサンプルペアを動的にマスキングするシーケンスレベルのグラディエント・リクティフィケーション,(2)高品質なアンカーを導入し,課題に対処するためのトレーニング信号の復元を行うオフ・ポリシー・データ・アジュメンテーションという2つのコアメカニズムを取り入れている。
詳細な分析により、DaGRPOは勾配の爆発を効果的に軽減し、長鎖推論能力の出現を加速することを確認した。
論文 参考訳(メタデータ) (2025-12-06T07:51:36Z) - Enhancing Spatial Reasoning in Vision-Language Models via Chain-of-Thought Prompting and Reinforcement Learning [0.42855555838080844]
本研究では,視覚言語モデル(VLM)の空間的推論能力について,Chain-of-Thoughtプロンプトと強化学習を通して検討した。
モデルが解答の前に推論ステップを生成する単純なCoT形式は、モデルの本来の性能を損なう可能性がある。
対照的に、シーングラフ(SceneGraph CoT)に基づく構造化マルチステージプロンプトは空間推論の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-07-06T10:51:12Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。