論文の概要: Late-to-Early Training: LET LLMs Learn Earlier, So Faster and Better
- arxiv url: http://arxiv.org/abs/2602.05393v1
- Date: Thu, 05 Feb 2026 07:19:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.814532
- Title: Late-to-Early Training: LET LLMs Learn Earlier, So Faster and Better
- Title(参考訳): LET LLMは、より早く、より速く、より良く学習する
- Authors: Ji Zhao, Yufei Gu, Shitong Shao, Xun Zhou, Liang Xiang, Zeke Xie,
- Abstract要約: 我々は,大規模言語モデルが初期のステップやそれ以前のレイヤで後続の知識を学習できるようにするため,LET(Lat-to-Early Training)パラダイムを提案する。
LETの有効性を駆動する2つの重要なメカニズムは、後期から後期の学習と後期から後期の学習である。
本手法は, 最大1.6$times$の高速化を実現し, ダウンストリームタスクの精度を標準訓練と比較して5%近く向上した。
- 参考スコア(独自算出の注目度): 24.03797089794804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) achieve remarkable empirical success through scaling model and data size, pretraining has become increasingly critical yet computationally prohibitive, hindering rapid development. Despite the availability of numerous pretrained LLMs developed at significant computational expense, a fundamental real-world question remains underexplored: \textit{Can we leverage existing small pretrained models to accelerate the training of larger models?} In this paper, we propose a Late-to-Early Training (LET) paradigm that enables LLMs to explicitly learn later knowledge in earlier steps and earlier layers. The core idea is to guide the early layers of an LLM during early training using representations from the late layers of a pretrained (i.e. late training phase) model. We identify two key mechanisms that drive LET's effectiveness: late-to-early-step learning and late-to-early-layer learning. These mechanisms significantly accelerate training convergence while robustly enhancing both language modeling capabilities and downstream task performance, enabling faster training with superior performance. Extensive experiments on 1.4B and 7B parameter models demonstrate LET's efficiency and effectiveness. Notably, when training a 1.4B LLM on the Pile dataset, our method achieves up to 1.6$\times$ speedup with nearly 5\% improvement in downstream task accuracy compared to standard training, even when using a pretrained model with 10$\times$ fewer parameters than the target model.
- Abstract(参考訳): 大規模言語モデル(LLM)は、スケールモデルとデータサイズによって顕著な経験的成功を達成しているため、事前学習はますます批判的かつ計算的に禁止され、急速な開発を妨げている。
膨大な計算コストで開発された多くの事前学習 LLM が利用可能であるにもかかわらず、基本的な実世界の質問は未解決のままである。
本稿では,LSMが初期のステップや初期のレイヤにおいて,後続の知識を明示的に学習することを可能にする,LET(Lat-to-Early Training)パラダイムを提案する。
中心となる考え方は、事前訓練された(後期トレーニングフェーズ)モデルの後期レイヤからの表現を使用して、初期のトレーニング中にLSMの初期レイヤをガイドすることである。
LETの有効性を駆動する2つの重要なメカニズムは、後期から後期の学習と後期から後期の学習である。
これらのメカニズムは、言語モデリング能力と下流タスクパフォーマンスの両方を強力に強化しつつ、トレーニングの収束を著しく加速し、優れたパフォーマンスでより高速なトレーニングを可能にする。
1.4B と 7B のパラメータモデルに関する大規模な実験は、LET の効率と有効性を実証している。
特に,Pileデータセット上で1.4B LLMをトレーニングする場合,目標モデルよりも10$\times$少ない事前学習モデルを用いても,最大1.6$\times$スピードアップが達成され,ダウンストリームタスクの精度は標準トレーニングに比べて約5倍向上する。
関連論文リスト
- Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study in Mathematical Reasoning [42.80470927369973]
我々は、モデルスケール、データボリューム、計算予算がどのように相互作用し、パフォーマンスを形作るかを研究する。
より少ないステップでトレーニングされたより大きなモデルは、より多くのステップでトレーニングされた小さなモデルよりも一貫して優れています。
データ制約されたレシエーションでは、高品質なデータの繰り返し再利用は極めて効果的である。
論文 参考訳(メタデータ) (2025-09-29T17:10:35Z) - AquilaMoE: Efficient Training for MoE Models with Scale-Up and Scale-Out Strategies [36.645912291368546]
AquilaMoEは最先端のバイリンガル8*16BMixture of Experts (MoE)言語モデルで、それぞれ16億のパラメータを持つ8人のエキスパートが参加する。
このアプローチは、2段階のプロセスを通じてデータ要求を最小限にしながら、パフォーマンスを最適化する。
我々は16Bモデルと8*16B AquilaMoEモデルの訓練に成功した。
論文 参考訳(メタデータ) (2024-08-13T02:07:00Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - GrowLength: Accelerating LLMs Pretraining by Progressively Growing
Training Length [65.24730341801468]
本稿では,大規模言語モデルの事前学習プロセスを促進するために,Growlength'という,新しい,シンプルで効果的な手法を提案する。
本手法は,事前学習期間を通じてトレーニング期間を段階的に延長し,計算コストを軽減し,効率を向上する。
論文 参考訳(メタデータ) (2023-10-01T05:25:24Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。