論文の概要: Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning
- arxiv url: http://arxiv.org/abs/2604.22074v1
- Date: Thu, 23 Apr 2026 21:01:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.268847
- Title: Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning
- Title(参考訳): アウトカムリワードは検証または因果的に重要な推論を保証しない
- Authors: Qinan Yu, Alexa Tartaglini, Peter Hase, Carlos Guestrin, Christopher Potts,
- Abstract要約: RLVRは、一般的に考えられているように、モデルが推論に依存しているとは限らないことを示す。
この問題は、訓練後の手順に簡単な修正を加えて修正することができる。
- 参考スコア(独自算出の注目度): 42.998601712623525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Verifiable Rewards (RLVR) on chain-of-thought reasoning has become a standard part of language model post-training recipes. A common assumption is that the reasoning chains trained through RLVR reliably represent how a model gets to its answer. In this paper, we develop two metrics for critically examining this assumption: Causal Importance of Reasoning (CIR), which measures the cumulative effect of reasoning tokens on the final answer, and Sufficiency of Reasoning (SR), which measures whether a verifier can arrive at an unambiguous answer based on the reasoning alone. Through experiments with the Qwen2.5 model series and ReasoningGym tasks, we find that: (1) while RLVR does improve task accuracy, it does not reliably improve CIR or SR, calling the role of reasoning in model performance into question; (2) a small amount of SFT before RLVR can be a remedy for low CIR and SR; and (3) CIR and SR can be improved even without SFT by applying auxiliary CIR/SR rewards on top of the outcome-based reward. This joint reward matches the accuracy of RLVR while also leading to causally important and sufficient reasoning. These results show that RLVR does not always lead models to rely on reasoning in the way that is commonly thought, but this issue can be remedied with simple modifications to the post-training procedure.
- Abstract(参考訳): Reinforcement Learning from Verifiable Rewards (RLVR) on chain-of-thinkt reasoning has become the standard part of language model post-training recipes。
一般的な仮定は、RLVRを通して訓練された推論チェーンが、モデルがどのようにその答えを得るかを確実に表しているということである。
本稿では,この仮定を批判的に検証するための指標として,最終回答に対する推論トークンの累積効果を測る因果的重要度(CIR)と,推論のみに基づいて検証者が不明瞭な回答に到達できるかどうかを測る正当性(SR)の2つを開発した。
Qwen2.5モデルシリーズとReasoningGymタスクによる実験により、(1)RLVRはタスク精度を向上するが、モデル性能における推論の役割を疑問視し、CIRやSRを確実に改善しない、(2)RLVR以前の少量のSFTは低いCIRやSRに対する救済であり、(3)CIRとSRは結果ベース報酬の上に補助的なCIR/SR報酬を適用することで、SFTなしで改善できる、ということがわかった。
この共同報酬はRLVRの精度と一致し、因果的に重要で十分な推論をもたらす。
これらの結果から、RLVRは一般的に考えられているような推論に頼らざるを得ないが、この問題は訓練後の手順に簡単な修正を加えて修正することができる。
関連論文リスト
- Beyond Correctness: Learning Robust Reasoning via Transfer [51.403609251508904]
我々は単純な哲学的見解を採用するが、堅牢な推論はそれを作った心を超えて有用であるべきである。
本稿では,トランスファーブル・リワードを用いた強化学習を紹介し,トランスファーブル・リワードによるロバストネスの運用について述べる。
提案手法は,最終回答精度を向上しながらサンプリング一貫性を向上し,ほぼ少ないトレーニングステップで同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-09T10:41:44Z) - From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - Generalization of RLVR Using Causal Reasoning as a Testbed [20.97376329817835]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルの訓練後において有望なパラダイムとして登場した。
本稿では,因果モデルに対する確率的推論の設定におけるRLVR一般化の実証的研究について述べる。
論文 参考訳(メタデータ) (2025-12-23T20:45:31Z) - Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning [3.437656066916039]
Reinforcement with Verifiable Rewards (RLVR)は、そのような機能を強化するための有望なアプローチとして登場した。
完全検証解の2つの問題についてRLVRについて検討する。
RLVRは評価基準を改善するが、しばしば新たな推論戦略を得るよりも、表層学習指標を強化することで改善する。
論文 参考訳(メタデータ) (2025-10-30T23:16:02Z) - PACR: Progressively Ascending Confidence Reward for LLM Reasoning [55.06373646059141]
我々は、PACR(Progressive Ascending Confidence Reward)を提案する。
PACRは、正解に対するモデルの進化的信念から直接計算された、密集したモデル固有の報酬である。
以上の結果から,RLVRトレーニングはより効果的で信頼性が高いことが示唆された。
論文 参考訳(メタデータ) (2025-10-25T11:25:35Z) - RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs [35.27561531876348]
本稿では,LLVRを用いた強化学習が大規模言語モデル(LLM)に及ぼす影響を体系的に検討する。
RLVRは数学的タスクとコーディングタスクの両方の推論境界を拡張可能であることを示す。
本稿では,RLVRのインセンティブメカニズムを説明する理論的枠組みについて述べる。
論文 参考訳(メタデータ) (2025-06-17T07:06:56Z) - Don't "Overthink" Passage Reranking: Is Reasoning Truly Necessary? [60.725923225442095]
我々は、推論に基づくポイントワイドリランカ(ReasonRR)と、同じ訓練条件下での標準、非推論ポイントワイドリランカ(StandardRR)を比較した。
ReasonRR-NoReasonはReasonRRよりも驚くほど効果的であることがわかった。
論文 参考訳(メタデータ) (2025-05-22T16:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。