論文の概要: Self-Evolving Curriculum for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2505.14970v1
- Date: Tue, 20 May 2025 23:17:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.788564
- Title: Self-Evolving Curriculum for LLM Reasoning
- Title(参考訳): LLM推論のための自己進化カリキュラム
- Authors: Xiaoyin Chen, Jiarui Lu, Minsu Kim, Dinghuai Zhang, Jian Tang, Alexandre Piché, Nicolas Gontier, Yoshua Bengio, Ehsan Kamalloo,
- Abstract要約: 自己進化カリキュラム(Self-Evolving Curriculum, SEC)は、RLファインチューニングプロセスと並行してカリキュラムポリシーを学習する自動カリキュラム学習手法である。
実験により、SECはモデルの推論能力を大幅に改善し、より困難で配布外のテスト問題へのより良い一般化を可能にした。
- 参考スコア(独自算出の注目度): 108.23021254812258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has proven effective for fine-tuning large language models (LLMs), significantly enhancing their reasoning abilities in domains such as mathematics and code generation. A crucial factor influencing RL fine-tuning success is the training curriculum: the order in which training problems are presented. While random curricula serve as common baselines, they remain suboptimal; manually designed curricula often rely heavily on heuristics, and online filtering methods can be computationally prohibitive. To address these limitations, we propose Self-Evolving Curriculum (SEC), an automatic curriculum learning method that learns a curriculum policy concurrently with the RL fine-tuning process. Our approach formulates curriculum selection as a non-stationary Multi-Armed Bandit problem, treating each problem category (e.g., difficulty level or problem type) as an individual arm. We leverage the absolute advantage from policy gradient methods as a proxy measure for immediate learning gain. At each training step, the curriculum policy selects categories to maximize this reward signal and is updated using the TD(0) method. Across three distinct reasoning domains: planning, inductive reasoning, and mathematics, our experiments demonstrate that SEC significantly improves models' reasoning capabilities, enabling better generalization to harder, out-of-distribution test problems. Additionally, our approach achieves better skill balance when fine-tuning simultaneously on multiple reasoning domains. These findings highlight SEC as a promising strategy for RL fine-tuning of LLMs.
- Abstract(参考訳): 強化学習(RL)は大規模言語モデル(LLM)の微調整に有効であることが証明されており、数学やコード生成といった分野における推論能力を大幅に向上させた。
RLファインチューニングの成功に影響を及ぼす重要な要因は、トレーニングカリキュラムである、トレーニング問題を提示する順序である。
ランダムなキュリキュラは共通のベースラインとして機能するが、それらはサブ最適であり、手動設計のキュリキュラはしばしばヒューリスティックに大きく依存し、オンラインフィルタリング法は計算的に禁止される。
これらの制約に対処するため、RLファインチューニングプロセスと並行してカリキュラムポリシーを学習する自動カリキュラム学習法であるセルフ進化カリキュラム(SEC)を提案する。
本手法は,カリキュラムの選択を非定常的マルチアーマッドバンド問題として定式化し,各問題カテゴリ(難易度,問題タイプなど)を個別のアームとして扱う。
我々は、即時学習ゲインのプロキシ尺度としてポリシー勾配法からの絶対的優位性を利用する。
各トレーニングステップにおいて、カリキュラムポリシーは、この報奨信号を最大化するカテゴリを選択し、TD(0)法を用いて更新する。
計画、帰納的推論、数学の3つの異なる推論領域において、我々の実験は、SECがモデルの推論能力を大幅に改善し、より困難で配布外なテスト問題へのより良い一般化を可能にすることを示した。
さらに,複数の推論領域を同時に微調整する際のスキルバランスも向上する。
これらの結果は、SECがLLMのRL微調整のための有望な戦略であることを示している。
関連論文リスト
- DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training [15.74527731339671]
本稿では,分布レベルの学習可能性の概念に基づくカリキュラム学習フレームワークを提案する。
我々のフレームワークは、高い平均的優位性(探索)または低いサンプル数(探索)で分布を優先順位付けする。
実験の結果,本フレームワークは収束速度と最終性能を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-04-13T20:10:27Z) - Causally Aligned Curriculum Learning [69.11672390876763]
本稿では、因果レンズによるカリキュラムRLの問題について検討する。
因果的に整合したソースタスクを特徴付ける十分なグラフィカルな条件を導出する。
因果整合型カリキュラムを生成するための効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-03-21T02:20:38Z) - Learning to Reason at the Frontier of Learnability [1.688134675717698]
現在、強化学習は大規模言語モデルトレーニングの最終段階として広く採用されている。
私たちは、多くの質問が、すべての試み(つまり、既に学習されている)によって解決されるか、まったく解決されないかを示す。
そこで本研究では,LLM学習の強化学習段階において,強化学習文献(学習可能性のためのサンプリング)から手法を適用した。
我々のカリキュラムは、高い成功のばらつき、すなわちエージェントが成功することもあるが、必ずしも成功しない質問を優先している。
論文 参考訳(メタデータ) (2025-02-17T19:16:37Z) - Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - Self-Supervised Curriculum Generation for Autonomous Reinforcement
Learning without Task-Specific Knowledge [25.168236693829783]
現在の強化学習アルゴリズムを現実世界のシナリオに適用する際の大きなボトルネックは、各エピソード間の環境をリセットする必要があることである。
本稿では,タスク固有の知識を使わずにエージェントの学習進捗に適応したカリキュラムを生成する新しいARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-15T18:40:10Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Understanding Curriculum Learning in Policy Optimization for Online
Combinatorial Optimization [66.35750142827898]
本稿では,オンラインCO問題に対するポリシー最適化手法に関する最初の体系的研究について述べる。
我々は、オンラインCO問題は、潜在マルコフ決定過程(LMDP)として自然に定式化でき、自然政策勾配(NPG)に収束することを示す。
さらに,本理論はカリキュラム学習の利点を解説し,強力なサンプリングポリシーを見出すことができ,流通シフトを低減できることを示した。
論文 参考訳(メタデータ) (2022-02-11T03:17:15Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。