論文の概要: From Acceleration to Saturation: Scaling Behavior of Bootstrapped Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2510.06548v1
- Date: Wed, 08 Oct 2025 00:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.248856
- Title: From Acceleration to Saturation: Scaling Behavior of Bootstrapped Language Model Pretraining
- Title(参考訳): 加速から飽和へ:ブートストラップ言語モデルの事前学習のスケーリング行動
- Authors: Seng Pei Liew, Takuya Kato,
- Abstract要約: ブートストラッププレトレーニングのスケーリング挙動について検討し,そのスケーリング効率が予測可能な方法で低下することを確認した。
本研究は,効率的な言語モデル学習のための実践的知見を提供し,過度に訓練されたモデルの再利用に関する重要な考察を提起する。
- 参考スコア(独自算出の注目度): 2.569647910019739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bootstrapped pretraining, i.e., the reuse of a pretrained base model for further pretraining, such as continual pretraining or model growth, is promising at reducing the cost of training language models from scratch. However, its effectiveness remains unclear, especially when applied to overtrained base models. In this work, we empirically study the scaling behavior of bootstrapped pretraining and find that its scaling efficiency diminishes in a predictable manner: The scaling exponent with respect to second-stage pretraining tokens decreases logarithmically with the number of tokens used to pretrain the base model. The joint dependence on first- and second-stage tokens is accurately modeled by a simple scaling law. Such saturation effect reveals a fundamental trade-off in multi-stage pretraining strategies: the more extensively a model is pretrained, the less additional benefit bootstrapping provides. Our findings provide practical insights for efficient language model training and raise important considerations for the reuse of overtrained models.
- Abstract(参考訳): ブートストラッププレトレーニング(Bootstrapped Pretraining)、すなわち、継続事前トレーニング(Continuous Pretraining)やモデル成長(Model Growth)などの事前トレーニングのための事前トレーニングベースモデルの再利用は、言語モデルのスクラッチからコストを削減することを約束している。
しかし、特に過度に訓練されたベースモデルに適用された場合、その有効性は不明確である。
本研究では,ブートストラップ付き事前学習のスケーリング挙動を実証的に研究し,そのスケーリング効率が予測可能な方法で低下することを発見した。
第一段および第二段のトークンに対する共同依存は、単純なスケーリング法則によって正確にモデル化される。
このような飽和効果は、多段階事前訓練戦略における基本的なトレードオフを明らかにしている。
本研究は,効率的な言語モデル学習のための実践的知見を提供し,過度に訓練されたモデルの再利用に関する重要な考察を提起する。
関連論文リスト
- Overtrained Language Models Are Harder to Fine-Tune [64.44743256512237]
大規模言語モデルは、成長を続けるトークン予算に基づいて事前訓練されている。
事前トレーニングの拡張により、モデルを微調整しにくくなり、最終的なパフォーマンスが低下することを示した。
論文 参考訳(メタデータ) (2025-03-24T23:11:56Z) - Reuse, Don't Retrain: A Recipe for Continued Pretraining of Language Models [29.367678364485794]
本稿では,言語モデルの事前学習を継続する上で,効率的なデータ分布と学習率スケジュールを設計する方法を示す。
プレトレーニングセットにおける継続トレーニングのベースラインと比較すると,平均モデル精度は9%向上した。
論文 参考訳(メタデータ) (2024-07-09T22:37:59Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Same Pre-training Loss, Better Downstream: Implicit Bias Matters for
Language Models [46.24479693469042]
本稿では,(1)事前学習損失が下流性能を完全に説明できないこと,(2)事前学習損失がない場合の下流性能とモデルの平坦性はよく相関していることを示す。
論文 参考訳(メタデータ) (2022-10-25T17:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。