論文の概要: Learning to Reason with Curriculum I: Provable Benefits of Autocurriculum
- arxiv url: http://arxiv.org/abs/2603.18325v1
- Date: Wed, 18 Mar 2026 22:17:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.867319
- Title: Learning to Reason with Curriculum I: Provable Benefits of Autocurriculum
- Title(参考訳): カリキュラムによる推論の学習 I: オートキュリキュラムのメリット
- Authors: Nived Rajaraman, Audrey Huang, Miro Dudik, Robert Schapire, Dylan J. Foster, Akshay Krishnamurthy,
- Abstract要約: 本稿では,教師付き微調整学習と強化学習の両方において,モデルが独自のパフォーマンスを用いてトレーニングに集中すべき問題を決定するオートカリキュラムについて述べる。
SFTでは,教師の指導を現在のモデルが苦しむプロンプトに焦点を合わせることで,非適応的な微調整よりも指数関数的に推論デモを少なくすることを示した。
RLファインチューニングでは、オートキュリキュラムは参照モデルの品質から計算コストを分離し、後者を目標精度にほぼ依存しないバーンインコストに削減する。
- 参考スコア(独自算出の注目度): 44.56791874493398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought reasoning, where language models expend additional computation by producing thinking tokens prior to final responses, has driven significant advances in model capabilities. However, training these reasoning models is extremely costly in terms of both data and compute, as it involves collecting long traces of reasoning behavior from humans or synthetic generators and further post-training the model via reinforcement learning. Are these costs fundamental, or can they be reduced through better algorithmic design? We show that autocurriculum, where the model uses its own performance to decide which problems to focus training on, provably improves upon standard training recipes for both supervised fine-tuning (SFT) and reinforcement learning (RL). For SFT, we show that autocurriculum requires exponentially fewer reasoning demonstrations than non-adaptive fine-tuning, by focusing teacher supervision on prompts where the current model struggles. For RL fine-tuning, autocurriculum decouples the computational cost from the quality of the reference model, reducing the latter to a burn-in cost that is nearly independent of the target accuracy. These improvements arise purely from adaptive data selection, drawing on classical techniques from boosting and learning from counterexamples, and requiring no assumption on the distribution or difficulty of prompts.
- Abstract(参考訳): 最終的な応答に先立って思考トークンを生成することで、言語モデルがさらなる計算を行うという、思考の連鎖推論は、モデル機能に大きな進歩をもたらした。
しかしながら、これらの推論モデルのトレーニングは、人間や合成発電機からの推論行動の長い痕跡を収集し、強化学習を通じてモデルをさらに訓練することを含むため、データと計算の両方の観点から非常にコストがかかる。
これらのコストは基本的なものなのか、それともより優れたアルゴリズム設計によって削減できるのか?
本稿では,教師付き微調整 (SFT) と強化学習 (RL) の双方において,モデルが独自の性能を用いてトレーニングに焦点を合わせるべき問題を決定するオートカリキュラムについて述べる。
SFTでは,教師の指導を現在のモデルが苦しむプロンプトに焦点を合わせることで,非適応的な微調整よりも指数関数的に推論デモを少なくすることを示した。
RLファインチューニングでは、オートキュリキュラムは参照モデルの品質から計算コストを分離し、後者を目標精度にほぼ依存しないバーンインコストに削減する。
これらの改善は、純粋に適応的なデータ選択、反例からの強化と学習、プロンプトの分布や難易度を仮定する必要のない古典的なテクニックに基づくものである。
関連論文リスト
- Entropy-Based Adaptive Weighting for Self-Training [15.089334734753677]
自己学習のためのエントロピーに基づく適応重み付け(EAST)を提案する。
EASTは、自己学習中に不確実なデータを優先順位付けするために設計された適応的な重み付け戦略である。
我々はGSM8KおよびMATHベンチマークに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-03-31T10:04:35Z) - Training Language Models to Reason Efficiently [12.689316164465472]
我々は、強化学習を用いて、大きな推論モデルを訓練し、効率的に推論する。
精度を維持しながら不要な計算オーバーヘッドを最小限に抑えるため,本手法はモデルにインセンティブを与える。
2つのオープンウェイトな大推論モデルに対する実験は、ほとんどの精度を保ちながら、推論コストを著しく削減することを示した。
論文 参考訳(メタデータ) (2025-02-06T19:18:16Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Fast-ELECTRA for Efficient Pre-training [83.29484808667532]
ELECTRAは補助モデルに置き換えられたシーケンス内のトークンを検出して、言語モデルを事前訓練する。
本稿では,既存の言語モデルを補助モデルとして活用したFast-ELECTRAを提案する。
提案手法は,最先端のELECTRA型事前学習手法の性能に匹敵するが,補助モデルの連成学習による計算とメモリコストは著しく削減される。
論文 参考訳(メタデータ) (2023-10-11T09:55:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。