論文の概要: Spurious Rewards: Rethinking Training Signals in RLVR
- arxiv url: http://arxiv.org/abs/2506.10947v1
- Date: Thu, 12 Jun 2025 17:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.885114
- Title: Spurious Rewards: Rethinking Training Signals in RLVR
- Title(参考訳): Spurious Rewards: RLVRのトレーニング信号の再考
- Authors: Rulin Shao, Shuyue Stella Li, Rui Xin, Scott Geng, Yiping Wang, Sewoong Oh, Simon Shaolei Du, Nathan Lambert, Sewon Min, Ranjay Krishna, Yulia Tsvetkov, Hannaneh Hajishirzi, Pang Wei Koh, Luke Zettlemoyer,
- Abstract要約: 検証可能な報酬(RLVR)を用いた強化学習は,特定のモデルにおいて強い数学的推論を導出できることを示す。
例えば、RLVRはQwen2.5-Math-7BのMATH-500の性能を21.4%向上させた。
コード推論 -- 実際のコード実行なしにコードで考える -- は、RLVR以降、はるかに頻繁になる、独特なQwen2.5-Mathの振る舞いである。
- 参考スコア(独自算出の注目度): 130.3484456088909
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We show that reinforcement learning with verifiable rewards (RLVR) can elicit strong mathematical reasoning in certain models even with spurious rewards that have little, no, or even negative correlation with the correct answer. For example, RLVR improves MATH-500 performance for Qwen2.5-Math-7B in absolute points by 21.4% (random reward), 13.8% (format reward), 24.1% (incorrect label), 26.0% (1-shot RL), and 27.1% (majority voting) -- nearly matching the 29.1% gained with ground truth rewards. However, the spurious rewards that work for Qwen often fail to yield gains with other model families like Llama3 or OLMo2. In particular, we find code reasoning -- thinking in code without actual code execution -- to be a distinctive Qwen2.5-Math behavior that becomes significantly more frequent after RLVR, from 65% to over 90%, even with spurious rewards. Overall, we hypothesize that, given the lack of useful reward signal, RLVR must somehow be surfacing useful reasoning representations learned during pretraining, although the exact mechanism remains a topic for future work. We suggest that future RLVR research should possibly be validated on diverse models rather than a single de facto choice, as we show that it is easy to get significant performance gains on Qwen models even with completely spurious reward signals.
- Abstract(参考訳): 検証可能な報酬 (RLVR) を用いた強化学習は, 正解にほとんど, ノー, あるいは負の相関がない場合であっても, 特定のモデルにおいて強い数学的推論を導出できることを示す。
例えば、RLVRは、Qwen2.5-Math-7Bの絶対点におけるMATH-500パフォーマンスを21.4%(ランダムな報酬)、13.8%(形式的な報酬)、24.1%(不正なラベル)、26.0%(1ショットのRL)、27.1%(メジャーな投票)で改善している。29.1%が真実の報酬とほぼ一致している。しかし、Qwenのために働く刺激的な報酬は、Llama3やOLMo2のような他のモデルファミリとの利得に失敗することが多い。特に、コード推論 -- コード実行なしでのコードの思考 -- は、RLVRが65%以上、90%以上、Rwen2.5-Mathの動作は、RLVRの後に顕著に頻発している。
全体として、有用な報酬信号が欠如していることを考えると、RLVRは何らかの形で事前学習中に学習した有用な推論表現を見極める必要があるが、正確なメカニズムは今後の研究の話題のままである。
我々は,Qwenモデルにおいて,完全刺激的な報酬信号を持つ場合でも,大幅な性能向上が容易に得られることを示すため,将来のRLVR研究は,単一のデファクト選択ではなく,多種多様なモデルで検証されるべきであろうことを示唆する。
関連論文リスト
- The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [43.310209758380886]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason [36.50007948478452]
本研究では,報奨雑音が学習後の大規模言語モデルに与える影響について検討した。
その結果、LLMは相当な報酬雑音に対して強い強靭性を示すことがわかった。
本研究は,事前学習段階におけるモデルの基礎的能力の向上の重要性を示唆するものである。
論文 参考訳(メタデータ) (2025-05-28T17:59:03Z) - Reinforcement Learning for Reasoning in Large Language Models with One Training Example [133.018487956408]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の数学的推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスドメインの一般化、自己回帰の頻度の増大、トレーニング精度が飽和した後もテスト性能の向上が維持されていることを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Reward Shaping to Mitigate Reward Hacking in RLHF [47.71454266800376]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の価値の整合に不可欠である。
報酬形成はRLHFを安定させ、報酬ハッキングを部分的に軽減する。
本稿では,報酬形成手法の総合的研究について述べる。
提案手法は,報酬モデル自体に埋め込まれた潜在的嗜好を,強化学習の信号として活用する手法である。
論文 参考訳(メタデータ) (2025-02-26T02:57:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。