論文の概要: StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs
- arxiv url: http://arxiv.org/abs/2506.03077v1
- Date: Tue, 03 Jun 2025 16:54:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.875429
- Title: StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs
- Title(参考訳): StreamBP:LLMの長期トレーニングのためのメモリ効率の良いエクストリームバックプロパゲーション
- Authors: Qijun Luo, Mengqi Li, Lei Zhao, Xiao Li,
- Abstract要約: 本稿では,StreamBP と呼ばれるメモリ効率の高いバックプロパゲーション手法を提案する。
StreamBPは、シーケンス次元に沿ったチェーンルールを階層的に線形分解する。
勾配チェックポイントと比較して、StreamBPはBPの最大シーケンス長を2.8-5.5倍にスケールアップする。
- 参考スコア(独自算出の注目度): 8.960494482210919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training language models on long sequence data is a demanding requirement for enhancing the model's capability on complex tasks, e.g., long-chain reasoning. However, as the sequence length scales up, the memory cost for storing activation values becomes huge during the Backpropagation (BP) process, even with the application of gradient checkpointing technique. To tackle this challenge, we propose a memory-efficient and exact BP method called StreamBP, which performs a linear decomposition of the chain rule along the sequence dimension in a layer-wise manner, significantly reducing the memory cost of activation values and logits. The proposed method is applicable to common objectives such as SFT, GRPO, and DPO. From an implementation perspective, StreamBP achieves less computational FLOPs and faster BP speed by leveraging the causal structure of the language model. Compared to gradient checkpointing, StreamBP scales up the maximum sequence length of BP by 2.8-5.5 times larger, while using comparable or even less BP time. Note that StreamBP's sequence length scaling ability can be directly transferred to batch size scaling for accelerating training. We further develop a communication-efficient distributed StreamBP to effectively support multi-GPU training and broaden its applicability. Our code can be easily integrated into the training pipeline of any transformer models and is available at https://github.com/Ledzy/StreamBP.
- Abstract(参考訳): ロングシーケンスデータ上での言語モデルのトレーニングは、ロングチェーン推論のような複雑なタスクにおけるモデルの能力を高めるために要求される要件である。
しかし、シーケンス長が大きくなるにつれて、勾配チェックポイント技術を適用したとしても、バックプロパゲーション(BP)プロセス中にアクティベーション値を保存するためのメモリコストが大きくなる。
この課題に対処するために,StreamBPと呼ばれるメモリ効率と正確なBP手法を提案する。これは,シーケンスの次元に沿った連鎖規則を階層的に線形に分解し,アクティベーション値とロジットのメモリコストを大幅に削減する。
提案手法は,SFT,GRPO,DPOなどの共通目的に適用可能である。
実装の観点からは、StreamBPは言語モデルの因果構造を活用することにより、より少ない計算FLOPと高速なBP速度を実現する。
勾配チェックポイントと比較して、StreamBPはBPの最大シーケンス長を2.8-5.5倍にスケールアップする。
StreamBPのシーケンス長スケーリング機能は、トレーニングを加速するためにバッチサイズスケーリングに直接転送できる点に注意が必要だ。
さらに,マルチGPUトレーニングを効果的にサポートし,適用性を高めるために,通信効率のよい分散StreamBPを開発した。
我々のコードは、任意のトランスフォーマーモデルのトレーニングパイプラインに簡単に統合することができ、https://github.com/Ledzy/StreamBP.comで利用可能です。
関連論文リスト
- TAH-QUANT: Effective Activation Quantization in Pipeline Parallelism over Slow Network [21.231881562816373]
本稿では,パイプライン並列性に特化した新しいアクティベーション量子化フレームワークTAH-Quant(Tile-wise Adaptive Hadamard Quantization)を紹介する。
提案手法は,精密制御のための細粒度タイルワイド量子化,最適ビット使用のためのエントロピー誘導トークンレベル適応ビット割り当て,およびピボット要素スワップを用いたアダマール変換を統合し,量子化出力を効果的に抑制する。
論文 参考訳(メタデータ) (2025-06-02T06:13:41Z) - Scaling Recurrent Neural Networks to a Billion Parameters with Zero-Order Optimization [0.0]
FLOPとGPUメモリにおけるRNNのスケール定数は、コンテキスト長が増加する。
変換器はFLOPで線形に、そしてせいぜい、生成中のメモリで線形にスケールする。
標準最適化手法は時間によるバックプロパゲーションに依存しているため、長い文脈での大規模RNNの訓練は実用的ではない。
論文 参考訳(メタデータ) (2025-05-23T13:04:06Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme
Long Sequence Transformer Models [34.74093040678323]
我々は,高度に効率的かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な方法論であるDeepSpeed-Ulyssesを紹介した。
DeepSpeed-Ulyssesは、そのコアでシーケンス次元に沿って入力データを分割し、効率的なオール・ツー・オールの集合通信を用いて注意を払っている。
実験の結果、DeepSpeed-Ulyssesは既存のSOTAベースラインの4倍のシーケンス長で2.5倍高速であることがわかった。
論文 参考訳(メタデータ) (2023-09-25T20:15:57Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。