論文の概要: The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason
- arxiv url: http://arxiv.org/abs/2505.22653v1
- Date: Wed, 28 May 2025 17:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.792247
- Title: The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason
- Title(参考訳): 登頂者、登頂者より深く進むことはめったにない
- Authors: Ang Lv, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Rui Yan,
- Abstract要約: 本研究では,報奨雑音が学習後の大規模言語モデルに与える影響について検討した。
その結果、LLMは相当な報酬雑音に対して強い強靭性を示すことがわかった。
本研究は,事前学習段階におけるモデルの基礎的能力の向上の重要性を示唆するものである。
- 参考スコア(独自算出の注目度): 36.50007948478452
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent studies on post-training large language models (LLMs) for reasoning through reinforcement learning (RL) typically focus on tasks that can be accurately verified and rewarded, such as solving math problems. In contrast, our research investigates the impact of reward noise, a more practical consideration for real-world scenarios involving the post-training of LLMs using reward models. We found that LLMs demonstrate strong robustness to substantial reward noise. For example, manually flipping 40% of the reward function's outputs in math tasks still allows a Qwen-2.5-7B model to achieve rapid convergence, improving its performance on math tasks from 5% to 72%, compared to the 75% accuracy achieved by a model trained with noiseless rewards. Surprisingly, by only rewarding the appearance of key reasoning phrases (namely reasoning pattern reward, RPR), such as ``first, I need to''-without verifying the correctness of answers, the model achieved peak downstream performance (over 70% accuracy for Qwen-2.5-7B) comparable to models trained with strict correctness verification and accurate rewards. Recognizing the importance of the reasoning process over the final results, we combined RPR with noisy reward models. RPR helped calibrate the noisy reward models, mitigating potential false negatives and enhancing the LLM's performance on open-ended tasks. These findings suggest the importance of improving models' foundational abilities during the pre-training phase while providing insights for advancing post-training techniques. Our code and scripts are available at https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.
- Abstract(参考訳): 強化学習(RL)による推論のための後学習大型言語モデル(LLM)に関する最近の研究は、典型的には、数学の問題を解くなど、正確に検証し、報奨できるタスクに焦点を当てている。
対照的に,本研究では,報酬モデルを用いたLLMのポストトレーニングを含む実世界のシナリオに対する,より実践的な考察である報奨雑音の影響について検討する。
その結果、LLMは相当な報酬雑音に対して強い強靭性を示すことがわかった。
例えば、数学のタスクで報酬関数の出力の40%を手動で反転させることで、Qwen-2.5-7Bモデルは、ノイズレスの報酬で訓練されたモデルによって達成された75%の精度と比較して、急速に収束し、数学のタスクのパフォーマンスを5%から72%改善することができる。
驚いたことに、'`first, I need to''のような重要な推論フレーズ(すなわち、推論パターンの報酬、RPR)の出現を答えの正しさを検証せずに報いるだけで、このモデルは、厳密な正しさの検証と正確な報酬で訓練されたモデルに匹敵する、ピーク下流のパフォーマンス(Qwen-2.5-7Bの70%以上の精度)を達成した。
最終結果よりも推論プロセスの重要性を認識し,RPRとノイズ報酬モデルを組み合わせた。
RPRはノイズの多い報酬モデルを校正し、潜在的な偽陰性を緩和し、オープンエンドタスクにおけるLLMのパフォーマンスを高めるのに役立った。
これらの結果から,事前学習段階におけるモデルの基礎的能力向上の重要性が示唆された。
私たちのコードとスクリプトはhttps://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.comで公開されています。
関連論文リスト
- Reward Reasoning Model [104.39256985858428]
Reward Reasoning Models (RRM) は、最終的な報酬を生成する前に意図的に推論プロセスを実行するように設計されている。
自己発展型報酬推論能力を育成する強化学習フレームワークを実装した。
特に、RTMはテスト時間計算を適応的に利用して報酬の精度をさらに向上させることができる。
論文 参考訳(メタデータ) (2025-05-20T17:58:03Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning [25.817231106021552]
プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)のテストタイムスケーリングにおいて、困難な推論タスクにおいて有効であることが証明されている。
しかしながら、PRMによる報酬ハッキング問題は、強化微調整における彼らの成功を制限している。
本稿では,PRMによる報酬ハッキングの主な原因を,強化学習における正準和形信用代入として同定する。
論文 参考訳(メタデータ) (2025-04-21T17:59:02Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - On Designing Effective RL Reward at Training Time for LLM Reasoning [14.006845442313134]
我々は,Reward Model(ORM)やProcess-supervised Reward Model(PRM)など,RLトレーニングの一般的な報酬モデルを評価する。
驚くべきことに、これらの学習された報酬モデルは推論時のパフォーマンスが強いにもかかわらず、RLトレーニングを助けたり、傷つけたりしないかもしれない。
Clipping と Delta の2つの新しい報酬改善手法を紹介した。
論文 参考訳(メタデータ) (2024-10-19T13:53:50Z) - Let's Reinforce Step by Step [10.65244642965387]
人間のフィードバックからの強化学習をモデル推論の形式化に活用する。
以上の結果から, PRM法により得られる微粒な報酬は, 単純な数学的推論の精度を高めることが示唆された。
また、モデル性能において、報酬アグリゲーション関数が果たす重要な役割を示す。
論文 参考訳(メタデータ) (2023-11-10T01:35:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。