論文の概要: Rethinking Easy-to-Hard: Limits of Curriculum Learning in Post-Training for Deductive Reasoning
- arxiv url: http://arxiv.org/abs/2603.27226v1
- Date: Sat, 28 Mar 2026 10:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.854757
- Title: Rethinking Easy-to-Hard: Limits of Curriculum Learning in Post-Training for Deductive Reasoning
- Title(参考訳): 書きやすさを再考する: 推論推論の学習におけるカリキュラム学習の限界
- Authors: Maximilian Mordig, Andreas Opedal, Weiyang Liu, Bernhard Schölkopf,
- Abstract要約: 本稿では,カリキュラムに基づく大規模言語モデルのポストトレーニングに関する体系的な実証的研究について述べる。
精度と応答長のいずれにおいても、標準的なランダムサンプリングよりも難易度に基づくシークエンシングにおいて、ロバストな優位性は見つからない。
本研究は, 帰納的推論の文脈において, 学習例の特定の順序付けは, 構成的一般化の達成において無視できる役割を担っていることを示唆している。
- 参考スコア(独自算出の注目度): 61.81622271655058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Curriculum learning (CL), motivated by the intuition that learning in increasing order of difficulty should ease generalization, is commonly adopted both in pre-training and post-training of large language models (LLMs). The intuition of CL is particularly compelling for compositional reasoning, where complex problems are built from elementary inference rules; however, the actual impact of CL on such tasks remains largely underexplored. We present a systematic empirical study of CL for post-training of LLMs, using synthetic arithmetic and logical benchmarks where difficulty is characterized by reasoning complexity rather than surface-level proxies. Surprisingly, across multiple model families and curriculum schedules, we find no robust advantage in difficulty-based sequencing over standard random sampling in either accuracy or response length. These findings persist across both supervised fine-tuning (SFT) and reinforcement learning (RL) methods. Our study suggests that, in the context of deductive reasoning, the specific ordering of training examples plays a negligible role in achieving compositional generalization, challenging the practical utility of curriculum-based post-training.
- Abstract(参考訳): カリキュラム学習(CL: Curriculum Learning)は、難易度の増加による学習が一般化を容易にするという直感に動機付けられ、大規模言語モデル(LLM)の事前学習と後学習の両方に一般的に採用されている。
CLの直観は、基本的な推論規則から複雑な問題が構築される構成的推論において特に魅力的であるが、そのようなタスクに対するCLの実際の影響は、ほとんど未解明のままである。
本研究では,LLMのポストトレーニングにおけるCLの体系的実証的研究を,表面レベルのプロキシではなく,複雑性の推論によって困難が特徴づけられるような,合成算術と論理的ベンチマークを用いて行った。
驚くべきことに、複数のモデルファミリとカリキュラムスケジュールにおいて、標準乱数サンプリングよりも精度と応答長のどちらにおいても、難易度に基づくシークエンシングにロバストな優位性は見つからない。
これらの知見は、教師付き微調整(SFT)法と強化学習(RL)法の両方に持続する。
本研究は, 帰納的推論の文脈において, 学習例の特定の順序付けは, 構成的一般化の達成において無視できる役割を担い, カリキュラムベースのポストトレーニングの実践的有用性に挑戦することが示唆された。
関連論文リスト
- How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。
推論を原子核スキルに分解する新しいベンチマークを導入する。
SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文 参考訳(メタデータ) (2025-12-30T08:16:20Z) - Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - LogicPuzzleRL: Cultivating Robust Mathematical Reasoning in LLMs via Reinforcement Learning [29.047063129464494]
大規模言語モデル(LLM)は多くの教師付きタスクで優れるが、よくなじみのない設定で構造化された推論に悩まされる。
この矛盾は、標準的な微調整パイプラインが汎用的な思考戦略を育むのではなく、狭く、ドメイン固有のものを注入する可能性があることを示唆している。
本研究では,7つのカスタム論理パズルの組による強化学習を通じて,LLMを微調整する「学習のための遊び」フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T09:40:47Z) - Does the Definition of Difficulty Matter? Scoring Functions and their Role for Curriculum Learning [42.4526628515253]
CL(Curriculum Learning)は、サンプルを学習プロセスに徐々に導入する機械学習トレーニング戦略である。
サンプル難易度推定のための最も一般的なスコアリング関数のロバスト性と類似性について検討する。
その結果,ランダムシード間のスコアリング関数のロバスト性はCL性能と正の相関関係があることが判明した。
論文 参考訳(メタデータ) (2024-11-01T18:55:31Z) - LaRS: Latent Reasoning Skills for Chain-of-Thought Reasoning [61.7853049843921]
Chain-of-Thoughting(CoT)プロンプトは、大規模言語モデル(LLM)のための一般的なコンテキスト内学習手法である。
本稿では、教師なし学習を用いて有理数の潜在空間表現を生成するLaRS(Lalatnt Reasoning Skills)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-07T20:36:10Z) - In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax [36.98247762224868]
In-context Learning (ICL)は、現在、大規模言語モデル(LLM)の新しいタスクを教える一般的な方法である。
モデルは、文脈によって定義されたタスクの基盤構造を推論するか、あるいは、同じ分散例にのみ一般化する表面一般化に依存するか?
GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, LM 間で大きなばらつきが認められた。
この分散は、モデルサイズよりも事前学習コーパスと監督方法の構成によりより説明される。
論文 参考訳(メタデータ) (2023-11-13T23:52:43Z) - Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models [68.18370230899102]
大規模言語モデル(LLM)における構成一般化能力の活用法について検討する。
我々は,これらのスキルに基礎を置く基礎的スキルと構成的事例の両方を同じプロンプト・コンテキストで示すことが重要であることを発見した。
SKiC型データを用いた微調整LDMは、ゼロショット弱強一般化を導出できることを示す。
論文 参考訳(メタデータ) (2023-08-01T05:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。