論文の概要: Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
- arxiv url: http://arxiv.org/abs/2504.13837v1
- Date: Fri, 18 Apr 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 14:31:02.675089
- Title: Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
- Title(参考訳): 強化学習はベースモデルを超えたLLMの推論能力に実際にインセンティブを与えるか?
- Authors: Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は近年,LLMの推論能力の向上に成功している。
我々は、この仮定を再検討し、pass@textitkメトリックを大量のtextitk値で測定し、モデルの推論能力境界を探索する。
我々は、RLがエノノット、事実、根本的に新しい推論パターンを誘発することを発見した。
- 参考スコア(独自算出の注目度): 67.30809748319486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has recently demonstrated notable success in enhancing the reasoning capabilities of LLMs, particularly in mathematics and programming tasks. It is widely believed that RLVR enables LLMs to continuously self-improve, thus acquiring novel reasoning abilities that exceed corresponding base models' capacity. In this study, however, we critically re-examines this assumption by measuring the pass@\textit{k} metric with large values of \textit{k} to explore the reasoning capability boundary of the models across a wide range of model families and benchmarks. Surprisingly, the RL does \emph{not}, in fact, elicit fundamentally new reasoning patterns. While RL-trained models outperform their base models at smaller values of $k$ (\eg, $k$=1), base models can achieve a comparable or even higher pass@$k$ score compared to their RL counterparts at large $k$ values. The reasoning paths generated by RL-trained models are already included in the base models' sampling distribution, suggesting that most reasoning abilities manifested in RL-trained models are already obtained by base models. Further analysis shows that RL training boosts the performance by biasing the model's output distribution toward paths that are more likely to yield rewards, therefore sampling correct responses more efficiently. But this also results in a narrower reasoning capability boundary compared to base models. Similar results are observed in visual reasoning tasks trained with RLVR. Moreover, we find that distillation can genuinely introduce new knowledge into the model, different from RLVR. These findings underscore a critical limitation of RLVR in advancing LLM reasoning abilities which requires us to fundamentally rethink the impact of RL training in reasoning LLMs and the need of a better paradigm. Project Page: https://limit-of-RLVR.github.io
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は近年,特に数学やプログラミングタスクにおいて,LLMの推論能力の向上に成功している。
RLVRはLLMを継続的に自己改善し、対応するベースモデルの能力を超える新たな推論能力を得ることができると広く信じられている。
しかし,本研究では,Pas@\textit{k} メトリックを大容量の <textit{k} 値で測定し,モデルの推論能力境界を広範囲のモデルファミリとベンチマークで検討することにより,この仮定を再検討する。
驚いたことに、RLは本質的に新しい推論パターンを導き出す。
RLで訓練されたモデルは、基本モデルを$k$(\eg, $k$=1)より小さな値で上回るが、ベースモデルは、大きな$k$でRLのモデルと比較すると、同等またはそれ以上のパス@k$スコアを達成できる。
RL学習モデルによって生成された推論経路は、既にベースモデルのサンプリング分布に含まれており、RL学習モデルに現れるほとんどの推論能力は、既にベースモデルによって取得されていることを示唆している。
さらなる分析により、RLトレーニングはモデルの出力分布を報奨率の高い経路に偏り付け、正しい応答をより効率的にサンプリングすることで、性能を向上させることが示されている。
しかし、これはまた、ベースモデルと比較して推論能力の境界が狭くなる結果となる。
同様の結果は、RLVRで訓練された視覚的推論タスクで観察される。
さらに,RLVRと異なり,蒸留によって新たな知識をモデルに導入できることが判明した。
これらの知見は、LLM推論能力の進歩におけるRLVRの限界を浮き彫りにしており、LLMの推論におけるRLトレーニングの影響とより良いパラダイムの必要性を根本的に再考する必要がある。
Project Page: https://limit-of-RLVR.github.io
関連論文リスト
- Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models [39.551767637896404]
本研究は、LVLM(Large Vision-Language Models)のトレーニングにおいて、支配的な教師付き微調整(SFT)、強化学習(RL)パラダイムを再考する。
SFTは、専門家モデルから模倣された擬似推論経路を誘導することにより、その後のRLを著しく損なう可能性があることを示す。
我々は,LVLMにおける推論を支援するために設計された,新しいマルチモーダルデータセットであるVLAA-Thinkingを紹介する。
論文 参考訳(メタデータ) (2025-04-10T16:54:05Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - Enhancing Analogical Reasoning in the Abstraction and Reasoning Corpus via Model-Based RL [6.143939145442195]
モデルに基づく強化学習は類推的推論の課題に適した手法であることを示す。
モデルベースRL法であるDreamerV3とモデルフリーRL法であるProximal Policy Optimizationを比較した。
この結果から,モデルベースRLはモデルフリーのRLよりも,単一タスクからの学習や一般化に優れるだけでなく,類似タスク間の推論において大きな優位性を示すことがわかった。
論文 参考訳(メタデータ) (2024-08-27T08:15:20Z) - Model-based Offline Reinforcement Learning with Lower Expectile Q-Learning [6.345851712811528]
我々は、新しいモデルに基づくオフラインRL手法、Low expectile Q-learning (LEQ)を導入する。
LEQは、$lambda$-returnsの低い期待回帰による低バイアスモデルベースの値推定を提供する。
我々の研究は、低期待の回帰、$lambda$-returns、オフラインデータに対する批判的トレーニングがLEQにとって重要であることを示した。
論文 参考訳(メタデータ) (2024-06-30T13:44:59Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。