論文の概要: Learning Dynamics in Continual Pre-Training for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.07796v1
- Date: Mon, 12 May 2025 17:47:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.527803
- Title: Learning Dynamics in Continual Pre-Training for Large Language Models
- Title(参考訳): 大規模言語モデルの連続事前学習における学習ダイナミクス
- Authors: Xingjin Wang, Howe Tissue, Lu Wang, Linjing Li, Daniel Dajun Zeng,
- Abstract要約: CPT(Continuous Pre-Training)は、特定の下流タスクに強力な基礎モデルを適用する一般的な方法となっている。
私たちは、各トレーニングステップにおいて、一般的なドメインパフォーマンスとダウンストリームドメインパフォーマンスがどのように進化するかに注目し、検証損失によってドメインパフォーマンスを測定します。
我々の定式化は、損失ポテンシャル、ピーク学習率、トレーニングステップ、リプレイ率など、CPTにおけるいくつかの重要な要因を包括的に理解している。
- 参考スコア(独自算出の注目度): 4.192010912385391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual Pre-Training (CPT) has become a popular and effective method to apply strong foundation models to specific downstream tasks. In this work, we explore the learning dynamics throughout the CPT process for large language models. We specifically focus on how general and downstream domain performance evolves at each training step, with domain performance measured via validation losses. We have observed that the CPT loss curve fundamentally characterizes the transition from one curve to another hidden curve, and could be described by decoupling the effects of distribution shift and learning rate annealing. We derive a CPT scaling law that combines the two factors, enabling the prediction of loss at any (continual) training steps and across learning rate schedules (LRS) in CPT. Our formulation presents a comprehensive understanding of several critical factors in CPT, including loss potential, peak learning rate, training steps, replay ratio, etc. Moreover, our approach can be adapted to customize training hyper-parameters to different CPT goals such as balancing general and domain-specific performance. Extensive experiments demonstrate that our scaling law holds across various CPT datasets and training hyper-parameters.
- Abstract(参考訳): CPT(Continuous Pre-Training)は、特定の下流タスクに強力な基礎モデルを適用する方法として人気があり、効果的な方法となっている。
本研究では,大規模言語モデルのCPTプロセスにおける学習ダイナミクスについて検討する。
具体的には、各トレーニングステップにおいて、一般的なドメインパフォーマンスとダウンストリームドメインパフォーマンスがどのように進化するかに注目し、検証損失によってドメインパフォーマンスを測定します。
我々はCPT損失曲線が1つの曲線からもう1つの隠れ曲線への遷移を根本的に特徴付けており、分布シフトと学習速度のアニールの影響を分離することで説明できることを示した。
我々は,CPTにおける学習率スケジュール(LRS)を横断する学習段階における損失の予測を可能にする2つの要因を組み合わせたCPTスケーリング法を導出する。
我々の定式化は、損失ポテンシャル、ピーク学習率、トレーニングステップ、リプレイ率など、CPTにおけるいくつかの重要な要因を包括的に理解している。
さらに,本手法は,汎用性能とドメイン固有性能のバランスをとるなど,CPTの目標に合わせて,ハイパーパラメータのトレーニングをカスタマイズできる。
大規模な実験により、我々のスケーリング法則が様々なCPTデータセットにまたがって保持され、ハイパーパラメータのトレーニングが行われていることが示される。
関連論文リスト
- PTMs-TSCIL Pre-Trained Models Based Class-Incremental Learning [7.784244204592032]
時系列データのためのクラスインクリメンタルラーニング(CIL)は、新たな知識獲得のための破滅的な忘れと可塑性に対する安定性のバランスをとる上で、課題に直面している。
PTMを用いた時系列クラスインクリメンタルラーニング(TSCIL)の第1回研究について紹介する。
論文 参考訳(メタデータ) (2025-03-10T10:27:21Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - HiDe-PET: Continual Learning via Hierarchical Decomposition of Parameter-Efficient Tuning [55.88910947643436]
予備学習モデル(PTM)とパラメータ効率チューニング(PET)を組み合わせた連続学習(CL)統合フレームワークを提案する。
タスク固有知識とタスク共有知識を取り入れることで目的を明示的に最適化する革新的な手法である階層分解PET(HiDe-PET)を提案する。
提案手法は,近年の強いベースラインの幅広いスペクトルに対して,極めて優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-07T01:50:25Z) - On Training Data Influence of GPT Models [37.53037752668756]
GPTfluenceは、トレーニング例がGPTモデルのトレーニングダイナミクスに与える影響を評価するための新しいアプローチである。
我々のアプローチは、個々のトレーニングインスタンスが、目標とするテストポイントに対する損失やその他の重要な指標などのパフォーマンストラジェクトリに与える影響をトレースする。
論文 参考訳(メタデータ) (2024-04-11T15:27:56Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。