論文の概要: What Makes a Good Curriculum? Disentangling the Effects of Data Ordering on LLM Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2510.19099v2
- Date: Fri, 24 Oct 2025 20:45:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 13:14:10.602232
- Title: What Makes a Good Curriculum? Disentangling the Effects of Data Ordering on LLM Mathematical Reasoning
- Title(参考訳): 良いカリキュラムとは何か? LLMの数学的推論におけるデータ順序付けの影響
- Authors: Yaning Jia, Chunhui Zhang, Xingjian Diao, Xiangchi Yuan, Zhongyu Ouyang, Chiyu Ma, Soroush Vosoughi,
- Abstract要約: 大規模言語モデル(LLMs)における推論改善戦略として,カリキュラム学習(CL)が普及している。
しかし、以前の作業では、異なる難易度メトリクスとトレーニングのセットアップを採用しており、オープンな根本的な疑問を残している。
我々は,カリキュラムの難易度を5つの相補的な次元に分解する統合されたオフライン評価フレームワークを通じて,これらの疑問に対処する。
- 参考スコア(独自算出の注目度): 47.10036442634749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Curriculum learning (CL) - ordering training data from easy to hard - has become a popular strategy for improving reasoning in large language models (LLMs). Yet prior work employs disparate difficulty metrics and training setups, leaving open fundamental questions: When does curriculum help? Which direction - forward or reverse - is better? And does the answer depend on what we measure? We address these questions through a unified offline evaluation framework that decomposes curriculum difficulty into five complementary dimensions: Problem Difficulty, Model Surprisal, Confidence Margin, Predictive Uncertainty, and Decision Variability. Through controlled post-training experiments on mathematical reasoning benchmarks with Llama3.1-8B, Mistral-7B, and Gemma3-4B, we find that (i) no curriculum strategy dominates universally - the relative effectiveness of forward versus reverse CL depends jointly on model capability and task complexity; (ii) even within a single metric, samples at different difficulty levels produce distinct gains depending on task demands; and (iii) task-aligned curricula focus on shaping the model's final representations and generalization, whereas inner-state curricula modulate internal states such as confidence and uncertainty. Our findings challenge the notion of a universal curriculum strategy and offer actionable guidance across model and task regimes, with some metrics indicating that prioritizing decision-uncertain samples can further enhance learning outcomes.
- Abstract(参考訳): カリキュラム学習(CL: Curriculum Learning)は、大規模言語モデル(LLM)における推論を改善するための一般的な戦略である。
しかし、以前の作業では、異なる難易度メトリクスとトレーニングのセットアップを採用しており、オープンな根本的な疑問を残している。
前進か逆かのどちらがよいか?
答えは私たちが測定したものに依存していますか?
我々は,カリキュラムの難易度を5つの相補的な次元に分解する統合されたオフライン評価フレームワークを通じて,これらの疑問に対処する。
Llama3.1-8B, Mistral-7B, Gemma3-4B を用いた数理推論ベンチマークの制御後学習実験により, 結果が得られた。
(i)カリキュラム戦略は普遍的に支配的ではなく、フォワードとリバースCLの相対的な有効性は、モデル能力とタスクの複雑さに共同で依存する。
(ii) 1つの基準の範囲内でも、異なる難易度におけるサンプルは、タスク要求に応じて異なる利得を生成する。
3)タスク整列キュリキュラはモデルの最終的な表現と一般化に焦点をあてる一方で,内部状態キュリキュラは信頼や不確実性といった内部状態を変調する。
本研究は, 普遍的なカリキュラム戦略の概念に挑戦し, モデルとタスク体制をまたいだ実践可能なガイダンスを提供するとともに, 決定不確実なサンプルの優先順位付けが学習結果をさらに向上させることを示す指標を提示する。
関連論文リスト
- CLPO: Curriculum Learning meets Policy Optimization for LLM Reasoning [10.544900224321415]
政策最適化プロセス内に動的教育フィードバックループを生成する新しいアルゴリズムであるCLPOを提案する。
Curriculum-Guided Learning for Policy Optimizationは、静的トレーニング手順を、モデルの能力と共進化する動的なプロセスに変換する。
実験により、CLPOは8つの挑戦的な数学的および一般的な推論ベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-09-29T16:29:04Z) - Your Pretrained Model Tells the Difficulty Itself: A Self-Adaptive Curriculum Learning Paradigm for Natural Language Understanding [53.63482987410292]
本稿では,事前学習言語モデルにより予測される難易度に基づいて,微調整例を優先する自己適応型カリキュラム学習パラダイムを提案する。
本手法は,4つの自然言語理解(NLU)データセットを用いて,二項分類と多項分類の両方を対象とする手法について検討した。
論文 参考訳(メタデータ) (2025-07-13T19:36:17Z) - Self-Evolving Curriculum for LLM Reasoning [96.10277986436172]
自己進化カリキュラム(Self-Evolving Curriculum, SEC)は、RLファインチューニングプロセスと並行してカリキュラムポリシーを学習する自動カリキュラム学習手法である。
実験により、SECはモデルの推論能力を大幅に改善し、より困難で配布外のテスト問題へのより良い一般化を可能にした。
論文 参考訳(メタデータ) (2025-05-20T23:17:15Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Curriculum Learning with Diversity for Supervised Computer Vision Tasks [1.5229257192293197]
本稿では,学習データの多様性と入力の難しさを考慮に入れた,新たなカリキュラムサンプリング戦略を提案する。
我々は、我々の戦略が不均衡なデータセットに対して非常に効率的であることを証明し、より高速な収束とより正確な結果をもたらす。
論文 参考訳(メタデータ) (2020-09-22T15:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。