論文の概要: Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-Training
- arxiv url: http://arxiv.org/abs/2510.08008v1
- Date: Thu, 09 Oct 2025 09:45:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.992402
- Title: Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-Training
- Title(参考訳): リサイクル事前チェックポイント:効率的な大規模言語モデル事前学習のためのミックス・オブ・エクスプロイトの直交成長
- Authors: Ruizhe Wang, Yucheng Ding, Xiao Liu, Yaoxiang Wang, Peng Cheng, Baining Guo, Zhengjun Zha, Yeyun Gong,
- Abstract要約: パラメータ数を拡大し,継続訓練を行うことで,事前学習したチェックポイントを再利用することを提案する。
70Bパラメータと1T以上のトレーニングトークンを持つモデルにアプローチを拡大し、スクラッチからトレーニングよりも10.66%の精度向上を実現しています。
- 参考スコア(独自算出の注目度): 70.60554423630803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapidly increasing computational cost of pretraining Large Language Models necessitates more efficient approaches. Numerous computational costs have been invested in existing well-trained checkpoints, but many of them remain underutilized due to engineering constraints or limited model capacity. To efficiently reuse this "sunk" cost, we propose to recycle pretrained checkpoints by expanding their parameter counts and continuing training. We propose orthogonal growth method well-suited for converged Mixture-of-Experts model: interpositional layer copying for depth growth and expert duplication with injected noise for width growth. To determine the optimal timing for such growth across checkpoints sequences, we perform comprehensive scaling experiments revealing that the final accuracy has a strong positive correlation with the amount of sunk cost, indicating that greater prior investment leads to better performance. We scale our approach to models with 70B parameters and over 1T training tokens, achieving 10.66% accuracy gain over training from scratch under the same additional compute budget. Our checkpoint recycling approach establishes a foundation for economically efficient large language model pretraining.
- Abstract(参考訳): 大規模言語モデルの事前学習における計算コストの急激な増加は、より効率的なアプローチを必要とする。
既存のよく訓練されたチェックポイントに多くの計算コストが投資されているが、その多くはエンジニアリング上の制約や限られたモデル能力のために未使用のままである。
このコストを効率的に再利用するために,パラメータ数を拡大し,継続訓練を行うことで,事前学習したチェックポイントを再利用することを提案する。
本研究では, 拡散混合スペクトルモデルに適した直交成長法を提案する: 深さ成長のための中間層複写法と幅成長のための射出雑音を用いたエキスパート重複法である。
チェックポイント列間の成長の最適タイミングを決定するため,最終精度がサンクコストの量と強い正の相関を持つことを示す総合的なスケーリング実験を行い,先行投資の増大により性能が向上することを示した。
我々は70Bパラメータと1T以上のトレーニングトークンを持つモデルにアプローチを拡大し、同じ計算予算の下でスクラッチからトレーニングよりも10.66%の精度向上を達成した。
我々のチェックポイントリサイクルアプローチは、経済的に効率的な大規模言語モデル事前学習の基礎を確立します。
関連論文リスト
- Thinking Augmented Pre-training [88.04395622064708]
拡張事前学習は、自動生成された思考軌跡でテキストを増強する普遍的な方法論である。
本稿では,既存のテキストデータを思考トラジェクトリで拡張することにより,大規模言語モデル(LLM)トレーニングのデータ効率を向上させるための,シンプルでスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:45:13Z) - Train Long, Think Short: Curriculum Learning for Efficient Reasoning [51.506559652495476]
長さ制御推論のためのカリキュラム学習戦略を提案する。
当社の手法は寛大なトークン予算から始まり、トレーニングをしながら徐々に厳格化します。
GSM8K、MATH500、SVAMP、College Math、GSM+の実験は、カリキュラムベースのトレーニングが固定予算ベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-08-12T13:48:03Z) - Training Language Models to Reason Efficiently [14.390800014819439]
我々は、強化学習を用いて、大きな推論モデルを訓練し、効率的に推論する。
精度を維持しながら不要な計算オーバーヘッドを最小限に抑えるため,本手法はモデルにインセンティブを与える。
2つのオープンウェイトな大推論モデルに対する実験は、ほとんどの精度を保ちながら、推論コストを著しく削減することを示した。
論文 参考訳(メタデータ) (2025-02-06T19:18:16Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - On the Transformer Growth for Progressive BERT Training [37.57617077192438]
ネットワークアーキテクチャ検索と同様、Transformerの成長も複合スケーリングを好んでいる。
提案手法では, ベースモデルと大型モデルでそれぞれ73.6%, 82.2%の事前学習を高速化する。
論文 参考訳(メタデータ) (2020-10-23T17:44:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。