論文の概要: Curriculum Learning for LLM Pretraining: An Analysis of Learning Dynamics
- arxiv url: http://arxiv.org/abs/2601.21698v1
- Date: Thu, 29 Jan 2026 13:30:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.849053
- Title: Curriculum Learning for LLM Pretraining: An Analysis of Learning Dynamics
- Title(参考訳): LLMプレトレーニングのためのカリキュラム学習:学習ダイナミクスの分析
- Authors: Mohamed Elgaar, Hadi Amiri,
- Abstract要約: 我々はPythiaモデルを3つのキュリキュラAge-of-Acquisition、単語頻度、動詞変動(VV)に対して訓練し、それぞれをランダム順序と比較する。
順序の全体にわたって、トレーニングは遅延フェーズの共有シーケンスに従い、キュキュラは主としてフェーズ内のデータ露出を変化させる。
- 参考スコア(独自算出の注目度): 15.942130010323128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Curriculum learning changes the order of pre-training data, but it remains unclear whether it changes the learning trajectory or mainly reorders exposure over a fixed trajectory. We train Pythia models (14M-410M parameters) for 300B tokens under three linguistically motivated curricula-Age-of-Acquisition, word frequency, and Verb Variation (VV)-and compare each against Random ordering; at 1B parameters we compare Random and VV. Across orderings, training follows a shared sequence of latent phases, while curricula mainly change within-phase data exposure. In smaller models (up to 160M parameters), Random ordering exhibits higher gradient noise and stronger late-training output-head spectral saturation, alongside lower final accuracy; curricula reduce both effects at matched compute. At larger scales, saturation differences are smaller and curriculum gains shrink. We formalize the link between difficulty pacing and optimization stability in an idealized analysis based on gradient-variance control, and our results point to a practical takeaway: curricula help by stabilizing within-phase optimization rather than by creating new phases.
- Abstract(参考訳): カリキュラム学習は、事前学習データの順序を変えるが、学習軌跡を変更するか、主に固定軌跡上での露出を並べ替えるかは定かではない。
我々は,300Bトークンに対するPythiaモデル(14M-410Mパラメータ)を,言語的に動機付けられた3つのキュリキュラ-Age-of-Acquisition,単語頻度,動詞変化(VV)に基づいて訓練し,それぞれをランダム順序と比較する。
順序の全体にわたって、トレーニングは遅延フェーズの共有シーケンスに従い、キュキュラは主としてフェーズ内のデータ露出を変化させる。
より小さなモデル(最大1億6000万のパラメータ)では、ランダム順序付けは、一致した計算における両方の効果を減らし、より高勾配ノイズとより強力な遅延学習出力ヘッドスペクトル飽和を示す。
大規模な場合、飽和の差は小さくなり、カリキュラムは減少する。
そこで我々は,勾配分散制御に基づく最適解析における困難ペアリングと最適化安定性の相関関係を定式化した。
関連論文リスト
- CLASS-IT: Conversational and Lecture-Aligned Small-Scale Instruction Tuning for BabyLMs [81.79228604962687]
本研究は,小規模のLMが命令チューニングの恩恵を受けることができるかどうかを考察する。
我々は,統合的・逐次的なカリキュラムに適用された対話型および質問応答型指導調律データセットを比較した。
その結果、命令チューニングは微調整のシナリオでは小さくても一貫した利得をもたらすことが示され、逐次キュリキュラはマージされたデータより優れていた。
しかし、改良はゼロショットタスクに一貫して移行するわけではなく、相互作用中心の適応と広範な言語一般化とのトレードオフを示唆している。
論文 参考訳(メタデータ) (2025-10-29T10:36:39Z) - STAIR: Addressing Stage Misalignment through Temporal-Aligned Preference Reinforcement Learning [16.149607057287092]
嗜好に基づく強化学習(PbRL)は、人間の嗜好から直接報酬を学習することで、複雑な報酬工学をバイパスする。
エージェントが連続的にサブタスクを実行するマルチステージタスクの有効性は、ステージミスアライメントによって制限される。
本稿では、まず時間的距離に基づいて段階近似を学習し、同じ段階における比較を優先するStage-AlIgned Reward Learning(STAIR)を提案する。
論文 参考訳(メタデータ) (2025-09-28T10:56:15Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Hessian Aware Low-Rank Perturbation for Order-Robust Continual Learning [19.850893012601638]
連続学習は、前のタスクから得た知識を忘れずに、一連のタスクを逐次学習することを目的としている。
本稿では,Hessian Aware Low-Rank Perturbationアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-26T01:44:01Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。