論文の概要: SkyLadder: Better and Faster Pretraining via Context Window Scheduling
- arxiv url: http://arxiv.org/abs/2503.15450v1
- Date: Wed, 19 Mar 2025 17:31:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:24:04.989696
- Title: SkyLadder: Better and Faster Pretraining via Context Window Scheduling
- Title(参考訳): SkyLadder: コンテキストウィンドウスケジューリングによる事前トレーニングの改善と高速化
- Authors: Tongyao Zhu, Qian Liu, Haonan Wang, Shiqi Chen, Xiangming Gu, Tianyu Pang, Min-Yen Kan,
- Abstract要約: より短いコンテキストウインドウで事前訓練されたモデルは、固定トークン予算の下で、長いコンテキストウインドウよりも一貫して優れていることを示す。
そこで我々はSkyLadderを提案する。SkyLadderは、短時間から長期のコンテキストウィンドウ遷移を実装した、シンプルで効果的なアプローチである。
SkyLadderは一般的なベンチマークで最大3.7%、ベースラインよりも最大22%高速なトレーニング速度を実現している。
- 参考スコア(独自算出の注目度): 45.46386422322583
- License:
- Abstract: Recent advancements in LLM pretraining have featured ever-expanding context windows to process longer sequences. However, our pilot study reveals that models pretrained with shorter context windows consistently outperform their long-context counterparts under a fixed token budget. This finding motivates us to explore an optimal context window scheduling strategy to better balance long-context capability with pretraining efficiency. To this end, we propose SkyLadder, a simple yet effective approach that implements a short-to-long context window transition. SkyLadder preserves strong standard benchmark performance, while matching or exceeding baseline results on long context tasks. Through extensive experiments, we pre-train 1B-parameter models (up to 32K context) and 3B-parameter models (8K context) on 100B tokens, demonstrating that SkyLadder yields consistent gains of up to 3.7% on common benchmarks, while achieving up to 22% faster training speeds compared to baselines. The code is at https://github.com/sail-sg/SkyLadder.
- Abstract(参考訳): LLMプレトレーニングの最近の進歩は、長いシーケンスを処理するために拡張されたコンテキストウィンドウが特徴である。
しかし、我々のパイロット研究では、短いコンテキストウィンドウで事前訓練されたモデルが、固定トークン予算の下で、長いコンテキストのモデルよりも一貫して優れていることが判明した。
この発見は、長期コンテキスト能力と事前学習効率のバランスを改善するために、最適なコンテキストウィンドウスケジューリング戦略を探求する動機となる。
この目的のために,SkyLadderを提案する。
SkyLadderは、強い標準ベンチマーク性能を維持し、長いコンテキストタスクのベースライン結果にマッチまたは超えている。
大規模な実験を通じて、100Bトークン上で1Bパラメータモデル(最大32Kコンテキスト)と3Bパラメータモデル(8Kコンテキスト)を事前トレーニングし、SkyLadderが基準よりも最大22%高速なトレーニング速度を達成しながら、一般的なベンチマークで最大3.7%の一貫性のあるゲインを得ることを示した。
コードはhttps://github.com/sail-sg/SkyLadderにある。
関連論文リスト
- Why Does the Effective Context Length of LLMs Fall Short? [68.34573617977013]
本稿では,SifTed Rotray 位置埋め込み (STRING) について紹介する。
ストリングは、トレーニング中の元の非効率な位置を上書きするために、よく訓練された位置をシフトし、既存のトレーニング期間内でのパフォーマンスを向上させる。
実験結果から, STRINGは最新の大規模モデルの性能を劇的に向上させることがわかった。
論文 参考訳(メタデータ) (2024-10-24T13:51:50Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - Sparsity-Accelerated Training for Large Language Models [20.86225596276327]
大規模言語モデル (LLM) は様々な自然言語処理 (NLP) タスクの習熟度を示した。
LLMは、連続的な事前訓練や教師付き微調整など、追加の訓練を必要とすることが多い。
本稿では,この学習プロセスの迅速化のために,事前学習したLLMのエンハンスパシティを活用することを提案する。
論文 参考訳(メタデータ) (2024-06-03T14:56:09Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - PoSE: Efficient Context Window Extension of LLMs via Positional
Skip-wise Training [91.99700930388998]
固定されたコンテキストウィンドウを用いて長い入力をシミュレートする位置スキップ-wisEトレーニングを提案する。
PoSEはフル長の微調整に比べてメモリと時間オーバーヘッドを大幅に削減する。
2kのトレーニングコンテキストウィンドウを使用して,LLaMAモデルを128kトークンに拡張した。
論文 参考訳(メタデータ) (2023-09-19T08:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。