論文の概要: Position: The Hidden Costs and Measurement Gaps of Reinforcement Learning with Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2509.21882v1
- Date: Fri, 26 Sep 2025 05:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.194497
- Title: Position: The Hidden Costs and Measurement Gaps of Reinforcement Learning with Verifiable Rewards
- Title(参考訳): 位置:検証リワードによる強化学習の隠れコストと計測ギャップ
- Authors: Aaron Tu, Weihao Xuan, Heli Qi, Xu Huang, Qingcheng Zeng, Shayan Talaei, Yijia Xiao, Peng Xia, Xiangru Tang, Yuchen Zhuang, Bing Hu, Hanqun Cao, Wenqi Shi, Tianang Leng, Rui Yang, Yingjian Chen, Ziqi Wang, Irene Li, Nan Liu, Huaxiu Yao, Li Erran Li, Ge Liu, Amin Saberi, Naoto Yokoya, Jure Leskovec, Yejin Choi, Fang Wu,
- Abstract要約: 我々は、RLVR税、評価落とし穴、データ汚染という3つの力によって利回りが過大評価されることが多いと論じている。
本稿では, 精度, グラウンド, キャリブレーションを両立させる税意識訓練・評価プロトコルを提案する。
- 参考スコア(独自算出の注目度): 110.47944672736723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) is a practical and scalable approach to enhancing large language models in areas such as math, code, and other structured tasks. Two questions motivate this paper: how much of the reported gains survive under strictly parity-controlled evaluation, and whether RLVR is cost-free or exacts a measurable tax. We argue that progress is real, but gains are often overstated due to three forces - an RLVR tax, evaluation pitfalls, and data contamination. Using a partial-prompt contamination audit and matched-budget reproductions across base and RL models, we show that several headline gaps shrink or vanish under clean, parity-controlled evaluation. We then propose a tax-aware training and evaluation protocol that co-optimizes accuracy, grounding, and calibrated abstention and standardizes budgeting and provenance checks. Applied to recent RLVR setups, this protocol yields more reliable estimates of reasoning gains and, in several cases, revises prior conclusions. Our position is constructive: RLVR is valuable and industry-ready; we advocate keeping its practical benefits while prioritizing reliability, safety, and measurement.
- Abstract(参考訳): 検証可能な報酬を伴う強化学習(RLVR)は、数学、コード、その他の構造化タスクなどの分野で大きな言語モデルを拡張するための実践的でスケーラブルなアプローチである。
2つの疑問がこの論文を動機付けている: 報告された利益のどれ程が厳格にパリティ制御された評価の下で生き残るか、そしてRLVRが無コストであるか、測定可能な税を正確に評価するか。
進歩は現実だと主張するが、RLVR税、評価落とし穴、データ汚染という3つの力によって利上げが過大評価されることが多い。
ベースモデルとRLモデル間の部分的プロンプト汚染監査と一致予算再生を用いて,クリーンでパリティ制御された評価の下で,いくつかの見出しギャップが縮小または消失することを示す。
そこで我々は, 精度, グラウンド, キャリブレーションを共に最適化し, 予算化, 保証チェックを標準化する, 税制訓練・評価プロトコルを提案する。
最近のRLVR設定に適用すると、このプロトコルは推論の利得をより信頼性が高く見積もられ、いくつかのケースでは事前の結論が修正される。
当社の立場は建設的であり、RLVRは価値があり、業界対応です。
関連論文リスト
- SPARK: Synergistic Policy And Reward Co-Evolving Framework [84.22494672256894]
我々は、RLVR上に構築された効率的でオン・ポリティクス、安定した手法であるSPARK(Synergistic Policy and Reward Co-Evolving Framework)を紹介する。
ロールアウトと正確性データを捨てる代わりに、SPARKはこの貴重な情報をリサイクルし、生成的報酬モデルとしてモデル自体をトレーニングする。
SPARK は複数の LLM モデルと LVLM モデル,および複数の推論,報酬モデル,一般ベンチマークにおいて,大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-09-26T17:50:12Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models [85.315711639214]
モデル固有の好奇心を利用して探索をガイドするフレームワークであるCuriosity-Driven Exploration (CDE)を紹介した。
アクターに対しては、生成された応答に対してパープレキシティを使用し、批判に対しては、マルチヘッドアーキテクチャからの値推定のばらつきを利用する。
理論的分析により,アクターのボーナスは本質的に過度に信頼された誤りを罰し,正しい反応の多様性を促進することが示唆された。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR [25.56828724912418]
Reinforcement Learning with Verifiable Rewards (RLVR) の最近の進歩は、数学やプログラミングといった難解な推論課題に取り組むために、大規模言語モデル(LLM)に力を与えている。
約束にもかかわらず、RLVRパラダイムは大きな課題を生んでいる。
我々は,im$textbfP$licit $textbfA$ctor $textbfC$ritic couplingを実現する新しいRLVRフレームワークである$textbfPACS$を提案する。
論文 参考訳(メタデータ) (2025-09-02T17:22:46Z) - Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs [32.99709073885827]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLM)の推論能力向上のための,有望なパラダイムとして登場した。
しかしながら、RLVRで調整されたモデルは、ソリューションフィリングのための$Pass@K$メトリックでベースモデルよりもパフォーマンスが低いことが多い。
より正確な評価基準である$CoT$-$Pass@K$を導入する。
論文 参考訳(メタデータ) (2025-06-17T07:06:56Z) - Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning [90.23629291067763]
大規模言語モデルにおける推論を改善するための有望なアプローチは、プロセス報酬モデル(PRM)を使用することである。
PRMは多段階の推論トレースの各ステップでフィードバックを提供し、結果報酬モデル(ORM)よりも信用割当を改善する可能性がある。
PRMに対して探索を行ったり、強化学習(RL)の報酬として使ったりすることで、基本方針を改善するために、「プロセス報酬をどう設計すべきか?」と質問する。
理論的には,良質なプロデューサの集合を特徴付けるとともに,このようなプロデューサからのプロセス報酬の最適化が,テスト時間探索やオンラインRLの探索を改善することを示す。
論文 参考訳(メタデータ) (2024-10-10T17:31:23Z) - Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Entire Space Counterfactual Learning: Tuning, Analytical Properties and
Industrial Applications [5.9460659646670875]
クリック後変換率(CVR)の推定は、長い間、サンプル選択バイアスとデータ空間の問題に悩まされてきた。
本稿では,全空間対物マルチタスクモデル (ESCM$2$) を提案する。
論文 参考訳(メタデータ) (2022-10-20T06:19:50Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。