論文の概要: Prioritizing the Best: Incentivizing Reliable Multimodal Reasoning by Rewarding Beyond Answer Correctness
- arxiv url: http://arxiv.org/abs/2604.18892v1
- Date: Mon, 20 Apr 2026 22:28:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.528948
- Title: Prioritizing the Best: Incentivizing Reliable Multimodal Reasoning by Rewarding Beyond Answer Correctness
- Title(参考訳): ベストを優先する:回答の正確さを超越したリワードによる信頼性の高いマルチモーダル推論のインセンティブ
- Authors: Mengzhao Jia, Zhihan Zhang, Meng Jiang,
- Abstract要約: 検証可能なリワードによる強化学習は、検証可能な最終回答に報酬を与えることで、マルチモーダル推論を改善する。
この回答の正しさと推論の妥当性のギャップは、マルチモーダルRLにおける軌道監督を動機付けている。
グループワイドランキング Reward は、1回のパスで同じプロンプトに対して検証器が通過した軌跡をランク付けし、それに応じて報酬を再分配する。
- 参考スコア(独自算出の注目度): 26.85256114041302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) improves multimodal reasoning by rewarding verifiable final answers. Yet answer-correct trajectories may still rely on incomplete derivations, weak evidence, or statements that contradict their conclusions. This gap between answer correctness and reasoning validity, which we call reasoning-answer inconsistency, motivates trajectory supervision in multimodal RL. We compare two main approaches: reward models (RMs), and Generative Rewards (GRs). RMs are efficient and help early in training, but their gains weaken as the policy distribution shifts; GRs improve performance, but may give unstable rewards and computationally expensive. We therefore propose Groupwise Ranking Reward, which ranks verifier-passed trajectories for the same prompt in one pass and redistributes reward accordingly. Groupwise comparison better separates stronger and weaker correct trajectories with lower judge overhead than GRs. Experiments show that RLVR aggravates reasoning-answer inconsistency, while trajectory supervision alleviates it. Groupwise Ranking Reward performs best overall, improving reliability-conditioned accuracy from 47.4% to 54.7% over RLVR.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR)は、検証可能な最終回答に報いることでマルチモーダル推論を改善する。
しかし、答えの正しい軌道は、いまだに不完全な導出、弱い証拠、あるいはそれらの結論に矛盾する言明に頼っているかもしれない。
この解答の正しさと推論の妥当性のギャップは、多モーダルRLにおける軌道監督を動機付けている。
報酬モデル(RM)とジェネレーティブ・リワード(GR)の2つの主要なアプローチを比較します。
RMは訓練の早い段階では効率的で役に立つが、政策の分散が変化するにつれて利得は弱まり、GRは性能を向上するが、不安定な報酬を与え、計算コストがかかる可能性がある。
そこで我々は,1回のパスにおいて同一のプロンプトに対して検証器通過軌跡をランク付けし,それに応じて報酬を再分配するグループワイドランキング・リワードを提案する。
グループワイズ比較 より良く、より強く、より弱い正しい軌道を分離し、GRよりも判断オーバーヘッドが低い。
実験により、RLVRは推論不整合を増大させ、軌跡監督はそれを緩和することが示された。
Groupwise Ranking Rewardは、信頼性の高い精度をRLVRの47.4%から54.7%に改善した。
関連論文リスト
- Seeing with You: Perception-Reasoning Coevolution for Multimodal Reasoning [30.60184048111503]
本稿では,共有ポリシを備えたデュアルロールRLVRフレームワークであるPRCO(Perception-Reasoning Coevolution)を紹介する。
PRCOは,ベースモデルと比較して,平均精度で7ポイント以上,モデルスケール間で一貫した改善が得られた。
論文 参考訳(メタデータ) (2026-03-30T16:03:56Z) - Learn Hard Problems During RL with Reference Guided Fine-tuning [56.56461712665904]
数学的推論のための強化学習(RL)は報酬の分散に悩むことがある。
本稿では,Reference-Guided Fine-Tuning (ReGFT)を導入し,ハード問題に対する正の軌道を合成し,RLの前にトレーニングする。
以上の結果から,ReGFTは報酬空間を効果的に克服し,より強力なRLに基づく数学的推論を解き放つことが示唆された。
論文 参考訳(メタデータ) (2026-03-01T18:41:28Z) - Beyond Correctness: Learning Robust Reasoning via Transfer [51.403609251508904]
我々は単純な哲学的見解を採用するが、堅牢な推論はそれを作った心を超えて有用であるべきである。
本稿では,トランスファーブル・リワードを用いた強化学習を紹介し,トランスファーブル・リワードによるロバストネスの運用について述べる。
提案手法は,最終回答精度を向上しながらサンプリング一貫性を向上し,ほぼ少ないトレーニングステップで同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-09T10:41:44Z) - From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - PACR: Progressively Ascending Confidence Reward for LLM Reasoning [55.06373646059141]
我々は、PACR(Progressive Ascending Confidence Reward)を提案する。
PACRは、正解に対するモデルの進化的信念から直接計算された、密集したモデル固有の報酬である。
以上の結果から,RLVRトレーニングはより効果的で信頼性が高いことが示唆された。
論文 参考訳(メタデータ) (2025-10-25T11:25:35Z) - Self-Aligned Reward: Towards Effective and Efficient Reasoners [16.740993145927774]
自己整合報酬 (Self-aligned reward, SAR) は、検証可能な報酬を補完し、推論精度と効率の両方を奨励する自己誘導信号である。
SARは, 正確さ, 正解スコアが冗長性よりも高く, 正解スコアが完全誤解よりも高いという, 解答品質を確実に区別することを示す。
論文 参考訳(メタデータ) (2025-09-05T20:39:43Z) - Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains [9.917318870162365]
Reinforcement Learning with Verifiable Rewards (RLVR) は、数学やコーディングのような明確な正当性信号を持つ複雑な推論タスクに有効であることが証明されている。
ラグビーは近年、そのような判断を捉えるために評価ベンチマークで使用されているが、オンラインのポストトレーニングの報奨信号としての可能性はまだ未定である。
本稿では,RLVRを検証可能な領域を超えて,ルーブリックフィードバックを用いて拡張するオンライン強化学習手法であるRaRを紹介する。
論文 参考訳(メタデータ) (2025-07-23T17:57:55Z) - RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。