論文の概要: Train Long, Think Short: Curriculum Learning for Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2508.08940v1
- Date: Tue, 12 Aug 2025 13:48:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.441098
- Title: Train Long, Think Short: Curriculum Learning for Efficient Reasoning
- Title(参考訳): 列車長, 短く考える: 効率的な推論のためのカリキュラム学習
- Authors: Hasan Abed Al Kader Hammoud, Kumail Alhamoud, Abed Hammoud, Elie Bou-Zeid, Marzyeh Ghassemi, Bernard Ghanem,
- Abstract要約: 長さ制御推論のためのカリキュラム学習戦略を提案する。
当社の手法は寛大なトークン予算から始まり、トレーニングをしながら徐々に厳格化します。
GSM8K、MATH500、SVAMP、College Math、GSM+の実験は、カリキュラムベースのトレーニングが固定予算ベースラインを一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 51.506559652495476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work on enhancing the reasoning abilities of large language models (LLMs) has introduced explicit length control as a means of constraining computational cost while preserving accuracy. However, existing approaches rely on fixed-length training budgets, which do not take advantage of the natural progression from exploration to compression during learning. In this work, we propose a curriculum learning strategy for length-controlled reasoning using Group Relative Policy Optimization (GRPO). Our method starts with generous token budgets and gradually tightens them over training, encouraging models to first discover effective solution strategies and then distill them into more concise reasoning traces. We augment GRPO with a reward function that balances three signals: task correctness (via verifier feedback), length efficiency, and formatting adherence (via structural tags). Experiments on GSM8K, MATH500, SVAMP, College Math, and GSM+ demonstrate that curriculum-based training consistently outperforms fixed-budget baselines at the same final budget, achieving higher accuracy and significantly improved token efficiency. We further ablate the impact of reward weighting and decay schedule design, showing that progressive constraint serves as a powerful inductive bias for training efficient reasoning models. Our code and checkpoints are released at: https://github.com/hammoudhasan/curriculum_grpo.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力を向上する最近の研究は、精度を保ちながら計算コストを制約する手段として、明示的な長さ制御を導入している。
しかし、既存のアプローチは、学習中の探索から圧縮への自然な進歩を生かしていない固定長のトレーニング予算に依存している。
本稿では,GRPO(Group Relative Policy Optimization)を用いた長さ制御推論のためのカリキュラム学習戦略を提案する。
我々の手法は、寛大なトークン予算から始まり、トレーニングよりも徐々にそれらを締め付け、モデルにまず効果的な解法戦略を発見し、それからより簡潔な推論トレースに抽出するように促す。
GRPOは、(検証者フィードバックによる)タスク正当性、(構造タグによる)長さ効率、および(構造タグによる)フォーマット順守の3つの信号のバランスをとる報酬関数で拡張する。
GSM8K、MATH500、SVAMP、College Math、GSM+の実験では、カリキュラムベースのトレーニングは同じ最終予算で固定予算ベースラインを一貫して上回り、より高い精度とトークン効率が大幅に向上した。
さらに、報酬重み付けと減衰スケジュール設計の影響を緩和し、プログレッシブ制約が効率的な推論モデルの学習に強力な帰納バイアスとなることを示した。
私たちのコードとチェックポイントは、https://github.com/hammoudhasan/curriculum_grpo.comでリリースされています。
関連論文リスト
- Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning [52.32193550674408]
強化学習(RL)による言語モデルの推論能力の向上を目指す。
我々は,LLMが徐々に推論スキルを構築できるように,タスクを簡単から困難(E2H)にスケジュールすることを提案する。
E2H Reasonerは小型LLM(1.5B〜3B)の推論能力を著しく改善する
論文 参考訳(メタデータ) (2025-06-07T02:41:54Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [45.33952788910874]
TONは視覚言語モデルの2段階のトレーニング戦略である。
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - Self-Evolving Curriculum for LLM Reasoning [108.23021254812258]
自己進化カリキュラム(Self-Evolving Curriculum, SEC)は、RLファインチューニングプロセスと並行してカリキュラムポリシーを学習する自動カリキュラム学習手法である。
実験により、SECはモデルの推論能力を大幅に改善し、より困難で配布外のテスト問題へのより良い一般化を可能にした。
論文 参考訳(メタデータ) (2025-05-20T23:17:15Z) - Rational Metareasoning for Large Language Models [17.479428400594028]
大きな言語モデル(LLM)を使用するためのコアテクニックとして,推論への関与を促す声が上がっている。
本研究は,認知科学で用いられるメタレゾニングの計算モデルに基づく新しいアプローチを導入する。
我々は不必要な推論を罰することで計算の価値を組み込む報酬関数を開発する。
論文 参考訳(メタデータ) (2024-10-07T23:48:52Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。