論文の概要: Reward Design for Physical Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.13993v1
- Date: Wed, 15 Apr 2026 15:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.61258
- Title: Reward Design for Physical Reasoning in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける物理推論のためのリワード設計
- Authors: Derek Lilienthal, Manisha Mukherjee, Sameera Horawalavithana,
- Abstract要約: 最先端のビジョン言語モデル(VLM)は、物理学ベンチマークでの人間のパフォーマンスには程遠い。
本稿では,身体的推論におけるGRPOに基づくVLMトレーニングのための体系的な報酬研究について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Physical reasoning over visual inputs demands tight integration of visual perception, domain knowledge, and multi-step symbolic inference. Yet even state-of-the-art Vision Language Models (VLMs) fall far short of human performance on physics benchmarks. While post-training algorithms such as Supervised Fine-Tuning (SFT) and Group Relative Policy Optimization (GRPO) have demonstrated strong reasoning gains in language models, how reward design shapes VLM physical reasoning behavior remains poorly understood. We present a systematic reward ablation study for GRPO-based VLM training on physical reasoning. We compare four reward signals of increasing semantic richness: format compliance, answer accuracy, a composite rubric reward (answer correctness, physics principle identification, and unit consistency), and a novel internal reward derived from model attention weights over input image regions. We evaluate on PhyX, a 3,000-problem benchmark spanning six physics domains and six reasoning types across multiple-choice and open-ended formats, using IBM Granite Vision 3.3 (2B). Across both formats, GRPO with accuracy-based rewards outperforms SFT on most domains, though gains vary substantially by reward type and domain. Reward design does not uniformly improve performance. Instead, it induces domain-specific reasoning behaviors. Accuracy-based rewards provide the strongest overall gains. Rubric rewards improve structured reasoning quality without consistent accuracy improvements. Attention-based rewards enhance spatial reasoning while degrading performance in symbolic domains. Our internal attention-weight reward requires no spatial annotations and improves spatial relation accuracy from 0.27 to 0.50, suggesting that supervising where the model attends during generation is a promising direction for visually grounded physical reasoning.
- Abstract(参考訳): 視覚入力に対する物理的推論は、視覚知覚、ドメイン知識、多段階シンボリック推論の厳密な統合を必要とする。
しかし、最先端のビジョン言語モデル(VLM)でさえ、物理学のベンチマークでは人間のパフォーマンスには程遠い。
Supervised Fine-Tuning (SFT) や Group Relative Policy Optimization (GRPO) のようなポストトレーニングアルゴリズムは、言語モデルにおいて強い推論効果を示してきたが、どのように報酬設計がVLMの物理的推論動作をどのように形作るかは理解されていない。
本研究は,身体的推論に基づくGRPOに基づくVLMトレーニングのための体系的報酬アブレーション研究である。
入力画像領域上のモデル注意重みから導かれる新しい内部報酬と、形式コンプライアンス、解答精度、複合ルーリック報酬(回答正しさ、物理原理同定、単位整合性)の4つの報奨信号を比較した。
我々はIBM Granite Vision 3.3 (2B) を用いて、6つの物理領域と6つの推論型にまたがる3,000プロブレムのベンチマークである PhyX を評価した。
両方のフォーマットで、精度に基づく報酬を持つGRPOは、ほとんどのドメインでSFTよりも優れているが、報酬タイプとドメインによって利得が大きく異なる。
リワード設計はパフォーマンスを均一に改善しない。
代わりに、ドメイン固有の推論の振る舞いを誘導する。
正確性に基づく報酬は、最も強力な総合的な利益をもたらす。
ルーブリック報酬は、一貫した精度の改善なしに構造的推論品質を改善する。
注意に基づく報酬は、象徴的領域における性能を低下させながら空間的推論を促進する。
空間的アノテーションは不要であり,空間的関係の精度は0.27から0.50に向上する。
関連論文リスト
- Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization [31.411469692692766]
Chain-of-Thoughtトレースは、最終的な回答と矛盾することが多く、視覚的証拠が不十分である。
ラグランジアン二重昇華による制約として整合性と接地を強制するFithful GRPOを提案する。
その結果,FGRPOは推論品質を大幅に改善し,不整合率を24.5%から1.7%に下げ,視覚的接点スコアを+13%改善した。
論文 参考訳(メタデータ) (2026-04-09T17:15:47Z) - Bridging Visual Representation and Reinforcement Learning from Verifiable Rewards in Large Vision-Language Models [35.97638821723309]
KAWHIは、構造化された視覚情報を均一な報酬ポリシー最適化手法に明示的に組み込む、プラグアンドプレイ報酬再重み付け機構である。
階層的幾何的アグリゲーションにより意味的に有意な領域を適応的に局在させ、構造化属性を介して視覚クリティカルなアテンションヘッドを識別し、段落レベルの信用再配置を行い、空間的な視覚的証拠を意味的に決定的な推論ステップと整合させる。
論文 参考訳(メタデータ) (2026-03-28T18:40:14Z) - MMGR: Multi-Modal Generative Reasoning [97.44203203196481]
本稿では,5つの推論能力に基づく基本的評価フレームワークMMGRを紹介する。
MMGRは、抽象推論(Abstract Reasoning)、体操ナビゲーション(Embodied Navigation)、物理コモンセンス(Physical Commonsense)の3つの領域にわたる生成的推論を評価する。
主要映像モデル(Veo-3, Sora-2, Wan-2.2)と画像モデル(Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image)をベンチマークする。
論文 参考訳(メタデータ) (2025-12-16T18:58:04Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Reinforcing Video Reasoning Segmentation to Think Before It Segments [67.5703457389657]
本稿では,ビデオ推論セグメンテーションのためのLVLMであるVeason-R1を紹介する。
Veason-R1 は、Chain-of-Thought trajectories を付加した Group Relative Policy Optimization (O) を通じて訓練される。
空間的アライメントと時間的整合性を高める包括的報酬機構を組み込んだ。
Veason-R1は、複数のベンチマークで最先端のパフォーマンスを達成し、先行技術を上回っている。
論文 参考訳(メタデータ) (2025-08-15T15:34:56Z) - Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - Enhancing Spatial Reasoning in Vision-Language Models via Chain-of-Thought Prompting and Reinforcement Learning [0.42855555838080844]
本研究では,視覚言語モデル(VLM)の空間的推論能力について,Chain-of-Thoughtプロンプトと強化学習を通して検討した。
モデルが解答の前に推論ステップを生成する単純なCoT形式は、モデルの本来の性能を損なう可能性がある。
対照的に、シーングラフ(SceneGraph CoT)に基づく構造化マルチステージプロンプトは空間推論の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-07-06T10:51:12Z) - Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs [19.934363371933944]
現在の視覚言語モデルは、きめ細かい空間的推論に苦慮している。
本稿では,これらの制約に対処する視覚言語推論モデルであるSpatialReasoner-R1を紹介する。
その結果,fDPOは空間品質タスクにおいて標準DPOよりも平均4.1%向上し,空間量タスクでは9.0%向上した。
論文 参考訳(メタデータ) (2025-06-26T18:00:00Z) - Reward Models Identify Consistency, Not Causality [54.987590763737145]
最先端の報酬モデルでは、因果正しさよりも構造的な一貫性が優先される。
問題文の削除は報酬のスコアに最小限の影響を与える。
数値を変更するか、推論フローを乱すかは、RM出力に大きく影響する。
論文 参考訳(メタデータ) (2025-02-20T14:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。