論文の概要: q0: Primitives for Hyper-Epoch Pretraining
- arxiv url: http://arxiv.org/abs/2606.03938v2
- Date: Wed, 03 Jun 2026 02:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.648085
- Title: q0: Primitives for Hyper-Epoch Pretraining
- Title(参考訳): q0: Hyper-Epoch Pretrainingのプリミティブ
- Authors: Bishwas Mandal, Shmuel Berman, Akshay Vegesna, Samip Dahal,
- Abstract要約: 単一のモデルの事前訓練は、計算予算が枯渇するずっと前に、数パス以内に飽和する。
ハイパーエポック事前学習(q0)を導入し,マルチエポック予算を多種多様なモデルに転換する。
我々は,q0が56エポック(4.6倍)または67エポック(3.8倍)の強い256エポックアンサンブルベースラインと一致することを示す。
- 参考スコア(独自算出の注目度): 0.5980755233352995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-epoch training is becoming the standard now that compute is growing faster than the supply of high-quality text. But pretraining a single model saturates within a few passes, long before the compute budget is exhausted. We argue this calls for a conceptual shift from training a single model toward exploring a population of models and aggregating their predictions. We introduce hyper-epoch pretraining (q0), which turns a multi-epoch budget into a population of diverse models whose combined predictions reach a lower validation loss than a single refined model. q0 reduces to three core primitives. A cyclic schedule with anti-correlated learning rate and weight decay collects diverse models from a few parallel trajectories. Chain distillation trains each model against its predecessor so that model quality compounds across the population. A learned prior, fit on a held out set, selects and weights members for any inference budget. On a 1.8B-parameter model trained on 100M FineWeb tokens, q0 matches a strong 256-epoch ensemble baseline using only ~56 epochs (~4.6x fewer), or ~67 epochs (~3.8x fewer) when matched to the baseline's ensemble size, and continues to improve beyond it. These gains reach cumulative ~12.9x data efficiency under the Slowrun setting and transfer to downstream benchmarks. Crucially, the optimal allocation shifts with the budget, so we give prescriptive recipes for how to spend a given epoch budget to maximize generalization, from a single epoch up to the largest budgets.
- Abstract(参考訳): マルチエポックトレーニングは、高品質なテキストの供給よりも高速にコンピューティングが成長している、という標準になりつつある。
しかし、1つのモデルの事前トレーニングは、計算予算が枯渇するずっと前に、数パス以内に飽和する。
これは、単一のモデルをトレーニングすることから、モデルの集団を探索し、予測を集約することへと、概念的なシフトを要求するものだ、と私たちは主張する。
マルチエポック・プレトレーニング (q0) を導入し, マルチエポック・プレトレーニングの予算を, 1つの改良モデルよりも検証損失が低い多種多様なモデル群に変換する。
q0は3つのコアプリミティブに減少する。
反相関学習率と重み減衰を伴う循環スケジュールは、いくつかの平行軌跡から様々なモデルを収集する。
チェイン蒸留は、各モデルを前任者に対して訓練し、人口全体で品質の高い化合物をモデル化する。
学習済みの事前学習は、完了したセットに適合し、任意の推論予算に対してメンバーを選択し、重み付けする。
100Mファインウェブトークンでトレーニングされた1.8Bパラメーターモデルでは、q0は56エポック(~4.6倍)または67エポック(~3.8倍)で256エポックアンサンブルベースラインと一致し、それを超えて改善を続けている。
これらのゲインは、Slowrun設定の下で累積約12.9倍のデータ効率に達し、下流のベンチマークに転送される。
重要なことは、最適なアロケーションは予算とともにシフトするため、一つのエポックから最大の予算まで、与えられたエポック予算を最大化するためにどのように使うかの規範的なレシピを提供する。
関連論文リスト
- Unextractable Protocol Models: Collaborative Training and Inference without Weight Materialization [58.14514930760722]
参加者が協力して大規模なニューラルネットワークを訓練し、提供する分散セットアップを検討する。
このセットアップでは、フルウェイトセットがどの参加者にも利用できないような、非機械的なウェイトの可能性を探る。
我々は、シャードモデルセットアップを利用するトレーニングおよび推論フレームワーク、Unextractable Protocol Models (UPMs)を紹介する。
論文 参考訳(メタデータ) (2026-05-22T10:24:57Z) - Catch Your Breath: Adaptive Computation for Self-Paced Sequence Production [55.76222360698305]
我々は,言語モデルが入力トークン毎に使用する計算ステップの数を動的かつ自律的に拡張できるような,教師付きトレーニング目標のクラスを探索する。
任意のトークンに対して、モデルは don't know> 出力を出力することで、追加の計算ステップを要求できる。
CYBモデルでは精度が向上し,トークンレベルの複雑性とコンテキストに処理時間を適用することができる。
論文 参考訳(メタデータ) (2025-10-13T21:07:05Z) - Pre-training under infinite compute [87.02472603429936]
本研究では、エポック数の増加とパラメータ数の増加に対するデータ制約によるアプローチが、最終的には過度に適合することを示す。
独立に訓練されたモデルのアンサンブルは、正規化レシピよりもはるかに低損失の漸近を達成できる。
この結果から,計算量の多い将来において,よりデータ効率の高い事前学習が実現できることが示唆された。
論文 参考訳(メタデータ) (2025-09-18T09:36:23Z) - Intention-Conditioned Flow Occupancy Models [80.42634994902858]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。
同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。
生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文 参考訳(メタデータ) (2025-06-10T15:27:46Z) - Zeroth-Order Adaptive Neuron Alignment Based Pruning without Re-Training [7.972074133591484]
我々は, LLMの任意のプルーニングアルゴリズム上で使用可能な, エフェストアップアルゴリズムである textbfNeuroAl を提案する。
我々の手法は、パフォーマンス・ランタイムトレードオフの観点から最新の最先端手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-11T15:30:16Z) - Efficient Training of Language Models with Compact and Consistent Next Token Distributions [23.312920633391837]
我々は, コーパスを崩壊した$n$-gramの分布で事前集約することで, より良いモデルをより高速に訓練できることを示す。
我々の近似は、より大きなデータセットやモデルへのゲインのスケーラビリティを促進する。
論文 参考訳(メタデータ) (2024-07-03T05:40:41Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。