論文の概要: Skrull: Towards Efficient Long Context Fine-tuning through Dynamic Data Scheduling
- arxiv url: http://arxiv.org/abs/2505.19609v1
- Date: Mon, 26 May 2025 07:22:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.241162
- Title: Skrull: Towards Efficient Long Context Fine-tuning through Dynamic Data Scheduling
- Title(参考訳): Skrull: 動的データスケジューリングによる効率的な長期微調整を目指して
- Authors: Hongtao Xu, Wenting Shen, Yuanxin Wei, Ang Wang, Guo Runfan, Tianxing Wang, Yong Li, Mingzhen Li, Weile Jia,
- Abstract要約: Long-SFT(Long-SFT)は,大規模言語モデル(LLM)の性能向上に重要な役割を担っている。
高速長SFTに特化して設計された動的データスケジューラであるSkrullを提案する。
スクロールは、長いシーケンスと短いシーケンスの要求をバランスさせ、全体的なトレーニング効率を向上させる。
- 参考スコア(独自算出の注目度): 5.855718590073654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context supervised fine-tuning (Long-SFT) plays a vital role in enhancing the performance of large language models (LLMs) on long-context tasks. To smoothly adapt LLMs to long-context scenarios, this process typically entails training on mixed datasets containing both long and short sequences. However, this heterogeneous sequence length distribution poses significant challenges for existing training systems, as they fail to simultaneously achieve high training efficiency for both long and short sequences, resulting in sub-optimal end-to-end system performance in Long-SFT. In this paper, we present a novel perspective on data scheduling to address the challenges posed by the heterogeneous data distributions in Long-SFT. We propose Skrull, a dynamic data scheduler specifically designed for efficient long-SFT. Through dynamic data scheduling, Skrull balances the computation requirements of long and short sequences, improving overall training efficiency. Furthermore, we formulate the scheduling process as a joint optimization problem and thoroughly analyze the trade-offs involved. Based on those analysis, Skrull employs a lightweight scheduling algorithm to achieve near-zero cost online scheduling in Long-SFT. Finally, we implement Skrull upon DeepSpeed, a state-of-the-art distributed training system for LLMs. Experimental results demonstrate that Skrull outperforms DeepSpeed by 3.76x on average (up to 7.54x) in real-world long-SFT scenarios.
- Abstract(参考訳): 長文教師付き微調整(Long-SFT)は、長文タスクにおける大規模言語モデル(LLM)の性能向上に重要な役割を果たす。
LLMを長期コンテキストのシナリオにスムーズに適応させるためには、このプロセスは通常、長いシーケンスと短いシーケンスの両方を含む混合データセットのトレーニングを必要とする。
しかし、この不均一なシーケンス長分布は、長いシーケンスと短いシーケンスの両方で高いトレーニング効率を同時に達成することができず、Long-SFTの準最適エンド・ツー・エンドシステム性能をもたらすため、既存のトレーニングシステムにとって大きな課題となる。
本稿では,Long-SFTにおける異種データ分布がもたらす課題に対処するために,データスケジューリングの新しい視点を提案する。
高速長SFTに特化して設計された動的データスケジューラであるSkrullを提案する。
ダイナミックなデータスケジューリングを通じて、Skrullは長いシーケンスと短いシーケンスの計算要求をバランスさせ、全体的なトレーニング効率を向上させる。
さらに、スケジューリングプロセスを共同最適化問題として定式化し、関連するトレードオフを徹底的に分析する。
これらの分析に基づいて、SkrullはLong-SFTでほぼゼロコストのオンラインスケジューリングを実現するために、軽量なスケジューリングアルゴリズムを使用している。
最後に,LLMの最先端分散トレーニングシステムであるSkrull on DeepSpeedを実装した。
実験の結果、Skrullは現実世界の長SFTシナリオでDeepSpeedを平均3.76倍(最大7.54倍)上回った。
関連論文リスト
- Hierarchical Balance Packing: Towards Efficient Supervised Fine-tuning for Long-Context LLM [45.510445021130685]
長期コンテキスト大規模言語モデル(LLM)のトレーニングは、長期コンテキストと短コンテキストデータによるハイブリッドトレーニングが、ワークロードの不均衡につながることが多いため、難しい。
既存の作業では、主にデータパッキングを使用してこの問題を軽減するが、不均衡な注意計算や通信オーバーヘッドの無駄を考慮できない。
本稿では,これらの非効率性に対処する新しいバッチ構築法とトレーニングレシピを設計する階層的バランスパッキング(HBP)を提案する。
論文 参考訳(メタデータ) (2025-03-10T10:52:50Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
コードリポジトリと書籍は長いデータの優れた情報源であることがわかったが、それらと高品質の短文データを組み合わせることが不可欠である。
最終モデルであるProLong-8Bは、128Kの同様のサイズのモデル間で、最先端の長文性能を示す。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。