論文の概要: Effective Reinforcement Learning for Reasoning in Language Models
- arxiv url: http://arxiv.org/abs/2505.17218v1
- Date: Thu, 22 May 2025 18:48:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.655516
- Title: Effective Reinforcement Learning for Reasoning in Language Models
- Title(参考訳): 言語モデルにおける推論のための効果的な強化学習
- Authors: Lianghuan Huang, Shuo Li, Sagnik Anupam, Insup Lee, Osbert Bastani,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、数学やコーディングといった分野における言語モデル(LM)の推論能力を改善するための有望な戦略として登場した。
我々は,計算制約による比較的小さなモデルに焦点をあて,LM推論のためのRLアルゴリズム設計決定を解析する。
その結果, (i) オンラインRLは, 教師付き微調整(SFT)よりも優れ, (ii) PPOをベースとしたオフポリチクスの更新により, ばらつきを抑えて精度が向上し, (iii) KLのばらつきの除去により, より簡潔な世代と精度が向上することがわかった。
- 参考スコア(独自算出の注目度): 30.994610715391776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has emerged as a promising strategy for improving the reasoning capabilities of language models (LMs) in domains such as mathematics and coding. However, most modern RL algorithms were designed to target robotics applications, which differ significantly from LM reasoning. We analyze RL algorithm design decisions for LM reasoning, for both accuracy and computational efficiency, focusing on relatively small models due to computational constraints. Our findings are: (i) on-policy RL significantly outperforms supervised fine-tuning (SFT), (ii) PPO-based off-policy updates increase accuracy instead of reduce variance, and (iii) removing KL divergence can lead to more concise generations and higher accuracy. Furthermore, we find that a key bottleneck to computational efficiency is that the optimal batch sizes for inference and backpropagation are different. We propose a novel algorithm, DASH, that performs preemptive sampling (i.e., sample a large batch and accumulate gradient updates in small increments), and gradient filtering (i.e., drop samples with small advantage estimates). We show that DASH reduces training time by 83% compared to a standard implementation of GRPO without sacrificing accuracy. Our findings provide valuable insights on designing effective RL algorithms for LM reasoning.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、数学やコーディングといった分野における言語モデル(LM)の推論能力を改善するための有望な戦略として登場した。
しかし、現代のRLアルゴリズムのほとんどは、LM推論とは大きく異なるロボット工学の応用をターゲットに設計されている。
LM推論におけるRLアルゴリズムの設計決定を精度と計算効率の両面で分析し、計算制約による比較的小さなモデルに焦点をあてる。
私たちの発見は以下のとおりです。
(i)オンラインRLは、教師付き微調整(SFT)を著しく上回っている。
(二)PPOに基づく外部政策の更新は、ばらつきを減らさずに正確性を高め、
第三に、KLの発散を除去することは、より簡潔な世代と高い精度をもたらす可能性がある。
さらに、計算効率の重要なボトルネックは、推論とバックプロパゲーションの最適なバッチサイズが異なることである。
プリエンプティブサンプリング(大規模なバッチをサンプリングし、小さなインクリメントで勾配更新を蓄積する)と勾配フィルタリング(小さな利点のあるサンプルをドロップする)を行う新しいアルゴリズムであるDASHを提案する。
DASHは,精度を犠牲にすることなく,GRPOの標準実装と比較してトレーニング時間を83%短縮することを示した。
本研究は,LM推論のための効率的なRLアルゴリズムの設計に関する貴重な知見を提供する。
関連論文リスト
- Good Learners Think Their Thinking: Generative PRM Makes Large Reasoning Model More Efficient Math Learner [31.033131727230277]
大規模推論モデル(LRM)は、Reinforcement Learning (RL) で最適化された複雑な数学問題の解法において、最近約束されている。
本稿では,RLに基づく学習における大きなボトルネックに対処するため,思考レベルで機能する固有信号駆動型生成過程評価機構を提案する。
1.5B と 7B のパラメータ LRM を用いた実験により,結果のみの報酬ベースラインよりもトレーニングサンプルが有意に少ない問題解精度が得られた。
論文 参考訳(メタデータ) (2025-07-31T07:54:58Z) - Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - MDPO: Multi-Granularity Direct Preference Optimization for Mathematical Reasoning [0.0]
大規模言語モデル(LLM)の数学的推論を最適化するMDPO(Multi-Granularity Direct Preference Optimization)法を提案する。
我々はオープンソースのQwen2とLlama3で実験を行い、GSM8Kデータセットで1.7%と1.2%、MATHデータセットで2.3%と1.2%の改善を実現した。
また、MDPOトレーニングデータを構築するためのパイプラインも提供しています。
論文 参考訳(メタデータ) (2025-05-30T08:42:14Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - What Matters for Batch Online Reinforcement Learning in Robotics? [65.06558240091758]
政策改善のために、自律的に収集された大量のデータから学習できることは、真にスケーラブルなロボット学習を可能にするという約束を支えている。
これまで、オンラインRL問題に模倣学習とフィルタ模倣学習を適用してきた。
これらの軸が自律的なデータ量でパフォーマンスとスケーリングにどのように影響するかを分析します。
論文 参考訳(メタデータ) (2025-05-12T21:24:22Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization [22.67700436936984]
ステップレベルのオフライン強化学習アルゴリズムであるDAPO(Direct Advantage Policy Optimization)を導入する。
DAPOは、各ステップにおける推論精度を予測するために批判機能を使用し、それによって高密度信号を生成して生成戦略を洗練させる。
その結果,DAPO は SFT モデルと RL モデルの両方の数学的・コード的能力を効果的に向上し,DAPO の有効性を示すことができた。
論文 参考訳(メタデータ) (2024-12-24T08:39:35Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Snapshot Reinforcement Learning: Leveraging Prior Trajectories for
Efficiency [6.267119107674013]
深部強化学習(DRL)アルゴリズムは、高い性能を達成するために、かなりのサンプルと計算資源を必要とする。
本稿では,環境変更によるサンプル効率の向上を目的としたSnapshot Reinforcement Learningフレームワークを提案する。
本稿では,既存のDRLアルゴリズムとよく統合された,シンプルで効果的なSnapshotRLベースラインアルゴリズムS3RLを提案する。
論文 参考訳(メタデータ) (2024-03-01T17:05:22Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。