Fugu-MT 論文翻訳(概要): SkyLadder: Better and Faster Pretraining via Context Window Scheduling

論文の概要: SkyLadder: Better and Faster Pretraining via Context Window Scheduling

arxiv url: http://arxiv.org/abs/2503.15450v1
Date: Wed, 19 Mar 2025 17:31:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-20 17:45:41.034389
Title: SkyLadder: Better and Faster Pretraining via Context Window Scheduling
Title（参考訳）: SkyLadder: コンテキストウィンドウスケジューリングによる事前トレーニングの改善と高速化
Authors: Tongyao Zhu, Qian Liu, Haonan Wang, Shiqi Chen, Xiangming Gu, Tianyu Pang, Min-Yen Kan,
Abstract要約: より短いコンテキストウインドウで事前訓練されたモデルは、固定トークン予算の下で、長いコンテキストウインドウよりも一貫して優れていることを示す。そこで我々はSkyLadderを提案する。SkyLadderは、短時間から長期のコンテキストウィンドウ遷移を実装した、シンプルで効果的なアプローチである。 SkyLadderは一般的なベンチマークで最大3.7%、ベースラインよりも最大22%高速なトレーニング速度を実現している。
参考スコア（独自算出の注目度）: 45.46386422322583
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in LLM pretraining have featured ever-expanding context windows to process longer sequences. However, our pilot study reveals that models pretrained with shorter context windows consistently outperform their long-context counterparts under a fixed token budget. This finding motivates us to explore an optimal context window scheduling strategy to better balance long-context capability with pretraining efficiency. To this end, we propose SkyLadder, a simple yet effective approach that implements a short-to-long context window transition. SkyLadder preserves strong standard benchmark performance, while matching or exceeding baseline results on long context tasks. Through extensive experiments, we pre-train 1B-parameter models (up to 32K context) and 3B-parameter models (8K context) on 100B tokens, demonstrating that SkyLadder yields consistent gains of up to 3.7% on common benchmarks, while achieving up to 22% faster training speeds compared to baselines. The code is at https://github.com/sail-sg/SkyLadder.
Abstract（参考訳）: LLMプレトレーニングの最近の進歩は、長いシーケンスを処理するために拡張されたコンテキストウィンドウが特徴である。しかし、我々のパイロット研究では、短いコンテキストウィンドウで事前訓練されたモデルが、固定トークン予算の下で、長いコンテキストのモデルよりも一貫して優れていることが判明した。この発見は、長期コンテキスト能力と事前学習効率のバランスを改善するために、最適なコンテキストウィンドウスケジューリング戦略を探求する動機となる。この目的のために,SkyLadderを提案する。 SkyLadderは、強い標準ベンチマーク性能を維持し、長いコンテキストタスクのベースライン結果にマッチまたは超えている。大規模な実験を通じて、100Bトークン上で1Bパラメータモデル(最大32Kコンテキスト)と3Bパラメータモデル(8Kコンテキスト)を事前トレーニングし、SkyLadderが基準よりも最大22%高速なトレーニング速度を達成しながら、一般的なベンチマークで最大3.7%の一貫性のあるゲインを得ることを示した。コードはhttps://github.com/sail-sg/SkyLadderにある。

論文の概要: SkyLadder: Better and Faster Pretraining via Context Window Scheduling

関連論文リスト