論文の概要: Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning
- arxiv url: http://arxiv.org/abs/2506.06632v1
- Date: Sat, 07 Jun 2025 02:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.370835
- Title: Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning
- Title(参考訳): 難易度から難易度までのカリキュラム強化学習はLLM推論を改善する
- Authors: Shubham Parashar, Shurui Gui, Xiner Li, Hongyi Ling, Sushil Vemuri, Blake Olson, Eric Li, Yu Zhang, James Caverlee, Dileep Kalathil, Shuiwang Ji,
- Abstract要約: 強化学習(RL)による言語モデルの推論能力の向上を目指す。
我々は,LLMが徐々に推論スキルを構築できるように,タスクを簡単から困難(E2H)にスケジュールすることを提案する。
E2H Reasonerは小型LLM(1.5B〜3B)の推論能力を著しく改善する
- 参考スコア(独自算出の注目度): 52.32193550674408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We aim to improve the reasoning capabilities of language models via reinforcement learning (RL). Recent RL post-trained models like DeepSeek-R1 have demonstrated reasoning abilities on mathematical and coding tasks. However, prior studies suggest that using RL alone to improve reasoning on inherently difficult tasks is less effective. Here, we draw inspiration from curriculum learning and propose to schedule tasks from easy to hard (E2H), allowing LLMs to build reasoning skills gradually. Our method is termed E2H Reasoner. Empirically, we observe that, although easy tasks are important initially, fading them out through appropriate scheduling is essential in preventing overfitting. Theoretically, we establish convergence guarantees for E2H Reasoner within an approximate policy iteration framework. We derive finite-sample complexity bounds and show that when tasks are appropriately decomposed and conditioned, learning through curriculum stages requires fewer total samples than direct learning. Experiments across multiple domains show that E2H Reasoner significantly improves the reasoning ability of small LLMs (1.5B to 3B), which otherwise struggle when trained with vanilla RL alone, highlighting the effectiveness of our method.
- Abstract(参考訳): 本稿では,強化学習(RL)による言語モデルの推論能力の向上を目指す。
最近のRLポストトレーニングモデルであるDeepSeek-R1は、数学的およびコーディングタスクにおける推論能力を示している。
しかし、従来の研究では、RLのみを使用して本質的に困難なタスクの推論を改善することは、より効果的でないことが示唆された。
本稿では、カリキュラム学習からインスピレーションを得て、簡単な作業から難しい作業(E2H)をスケジュールすることを提案する。
私たちの方法はE2H Reasonerと呼ばれています。
経験的に、簡単なタスクは最初は重要だが、オーバーフィッティングを防ぐためには、適切なスケジューリングによってそれらをフェードアウトすることが不可欠である。
理論的には、E2H Reasonerの収束保証を近似的なポリシー反復フレームワーク内で確立する。
有限サンプルの複雑性境界を導出し、タスクが適切に分解され条件付けられた場合、カリキュラム段階を通しての学習は直接学習よりも総サンプルを少なくすることを示した。
複数の領域にわたる実験の結果,E2H Reasonerは小LLM(1.5Bから3B)の推論能力を大幅に向上することが示された。
関連論文リスト
- Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。
交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。
目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T16:51:54Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Offline Reinforcement Learning for LLM Multi-Step Reasoning [15.687002884103537]
OREO(Offline Reasoning Optimization)は,多段階推論の強化を目的としたオフライン強化学習手法である。
これにより、ペアワイズデータを収集する必要がなくなり、より優れたクレジット割り当てが可能になる。
マルチステップ推論ベンチマークでは、既存のオフライン学習手法を超越している。
論文 参考訳(メタデータ) (2024-12-20T18:49:45Z) - Human-Inspired Framework to Accelerate Reinforcement Learning [1.6317061277457001]
強化学習(Reinforcement Learning, RL)は、データサイエンスの意思決定において重要であるが、サンプルの不効率に悩まされている。
本稿では,RLアルゴリズムのサンプル効率を向上させるための,人間に触発された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-28T13:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。