論文の概要: Efficient Pre-Training with Token Superposition
- arxiv url: http://arxiv.org/abs/2605.06546v1
- Date: Thu, 07 May 2026 16:41:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:12.006148
- Title: Efficient Pre-Training with Token Superposition
- Title(参考訳): Token Superposition を用いた効率的な事前訓練
- Authors: Bowen Peng, Théo Gigant, Jeffrey Quesnelle,
- Abstract要約: Token-Superposition Training (TST) は、FLOP毎のデータスループットを大幅に向上する単純なドロップイン方式である。
我々は,TSTを270Mと600Mのスケールで広範囲に評価し,3Bと10BのA1B混合モデルで検証した。
均等な設定では、TSTは10B A1Bスケールでのトレーニング前の総時間を最大2.5倍に削減する。
- 参考スコア(独自算出の注目度): 6.240815206375064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-training of Large Language Models is often prohibitively expensive and inefficient at scale, requiring complex and invasive modifications in order to achieve high data throughput. In this work, we present Token-Superposition Training (TST), a simple drop-in method that significantly improves the data throughput per FLOPs during pre-training without modifying the parallelism, optimizer, tokenizer, data, or model architecture. TST is done in two phases: (i) A highly efficient superposition phase where we combine many contiguous tokens into one bag and train using a multi-hot cross-entropy (MCE) objective, and (ii) a recovery phase where we revert back to standard training. We extensively evaluate TST on the scale of 270M and 600M parameters and validate on 3B and a 10B A1B mixture of experts model, demonstrating that it is highly robust in different settings. Ultimately, TST consistently outperforms baseline loss and downstream evaluations, and under equal-loss settings, TST yields up to a 2.5x reduction in total pre-training time at the 10B A1B scale.
- Abstract(参考訳): 大規模言語モデルの事前学習は、高スループットを実現するために複雑で侵襲的な修正を必要とするため、高コストで非効率であることが多い。
本研究では,並列処理,オプティマイザ,トークン処理,データ,モデルアーキテクチャを変更することなく,FLOP毎のデータスループットを大幅に向上するシンプルなドロップイン手法であるToken-Superposition Training (TST)を提案する。
TSTは2つのフェーズで行われます。
一 マルチホットクロスエントロピー(MCE)の目的を用いて、多数の連続トークンを一つのバッグにまとめて訓練する高効率な重ね合わせフェーズ
(ii)標準訓練に戻る回復段階。
我々はTSTを270Mと600Mのスケールで広範囲に評価し、3Bおよび10B A1Bのエキスパートモデル上で検証し、異なる設定で非常に堅牢であることを実証した。
最終的に、TSTはベースライン損失と下流評価を一貫して上回り、均等な設定では10B A1Bスケールでのトレーニング前の総時間を最大2.5倍に削減する。
関連論文リスト
- Thinking Augmented Pre-training [88.04395622064708]
拡張事前学習は、自動生成された思考軌跡でテキストを増強する普遍的な方法論である。
本稿では,既存のテキストデータを思考トラジェクトリで拡張することにより,大規模言語モデル(LLM)トレーニングのデータ効率を向上させるための,シンプルでスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:45:13Z) - TSPulse: Dual Space Tiny Pre-Trained Models for Rapid Time-Series Analysis [12.034816114258803]
TSPulseは、1Mパラメータしか持たない超コンパクトな時系列事前訓練モデルである。
分類、異常検出、インプット、検索タスクで強く機能する。
結果は100Mパラメータ(既存のSOTAモデルより10-100倍小さい)で達成される。
論文 参考訳(メタデータ) (2025-05-19T12:18:53Z) - Mixed Sparsity Training: Achieving 4$\times$ FLOP Reduction for Transformer Pretraining [32.925150708409205]
混合空間訓練(Mixed Sparsity Training、MST)は、性能を維持しながら、約75%の浮動小数点演算(FLOP)を削減できる効率的な事前訓練法である。
GPT-2の実験では、FLOPの4倍の4倍の値が、性能を損なうことなく得られることを示した。
論文 参考訳(メタデータ) (2024-08-21T16:13:16Z) - Efficient Stagewise Pretraining via Progressive Subnetworks [53.00045381931778]
一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。
本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。
本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
論文 参考訳(メタデータ) (2024-02-08T18:49:09Z) - Pre-training for Speech Translation: CTC Meets Optimal Transport [29.807861658249923]
本研究では,コネクショニスト時間分類(CTC)の損失が設計によるモダリティギャップを減少させることを示す。
本稿では,CTCと最適輸送を組み合わせた新しい事前学習手法を提案する。
本手法では,2つのエンコーダ,1つは音響入力用,もう1つはテキスト入力用で構成され,ワッサーシュタイン空間において互いに近接した表現を生成する。
論文 参考訳(メタデータ) (2023-01-27T14:03:09Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。