Fugu-MT 論文翻訳(概要): StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs

論文の概要: StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs

arxiv url: http://arxiv.org/abs/2506.03077v1
Date: Tue, 03 Jun 2025 16:54:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:35.875429
Title: StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs
Title（参考訳）: StreamBP:LLMの長期トレーニングのためのメモリ効率の良いエクストリームバックプロパゲーション
Authors: Qijun Luo, Mengqi Li, Lei Zhao, Xiao Li,
Abstract要約: 本稿では,StreamBP と呼ばれるメモリ効率の高いバックプロパゲーション手法を提案する。 StreamBPは、シーケンス次元に沿ったチェーンルールを階層的に線形分解する。勾配チェックポイントと比較して、StreamBPはBPの最大シーケンス長を2.8-5.5倍にスケールアップする。
参考スコア（独自算出の注目度）: 8.960494482210919
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training language models on long sequence data is a demanding requirement for enhancing the model's capability on complex tasks, e.g., long-chain reasoning. However, as the sequence length scales up, the memory cost for storing activation values becomes huge during the Backpropagation (BP) process, even with the application of gradient checkpointing technique. To tackle this challenge, we propose a memory-efficient and exact BP method called StreamBP, which performs a linear decomposition of the chain rule along the sequence dimension in a layer-wise manner, significantly reducing the memory cost of activation values and logits. The proposed method is applicable to common objectives such as SFT, GRPO, and DPO. From an implementation perspective, StreamBP achieves less computational FLOPs and faster BP speed by leveraging the causal structure of the language model. Compared to gradient checkpointing, StreamBP scales up the maximum sequence length of BP by 2.8-5.5 times larger, while using comparable or even less BP time. Note that StreamBP's sequence length scaling ability can be directly transferred to batch size scaling for accelerating training. We further develop a communication-efficient distributed StreamBP to effectively support multi-GPU training and broaden its applicability. Our code can be easily integrated into the training pipeline of any transformer models and is available at https://github.com/Ledzy/StreamBP.
Abstract（参考訳）: ロングシーケンスデータ上での言語モデルのトレーニングは、ロングチェーン推論のような複雑なタスクにおけるモデルの能力を高めるために要求される要件である。しかし、シーケンス長が大きくなるにつれて、勾配チェックポイント技術を適用したとしても、バックプロパゲーション(BP)プロセス中にアクティベーション値を保存するためのメモリコストが大きくなる。この課題に対処するために,StreamBPと呼ばれるメモリ効率と正確なBP手法を提案する。これは,シーケンスの次元に沿った連鎖規則を階層的に線形に分解し,アクティベーション値とロジットのメモリコストを大幅に削減する。提案手法は,SFT,GRPO,DPOなどの共通目的に適用可能である。実装の観点からは、StreamBPは言語モデルの因果構造を活用することにより、より少ない計算FLOPと高速なBP速度を実現する。勾配チェックポイントと比較して、StreamBPはBPの最大シーケンス長を2.8-5.5倍にスケールアップする。 StreamBPのシーケンス長スケーリング機能は、トレーニングを加速するためにバッチサイズスケーリングに直接転送できる点に注意が必要だ。さらに,マルチGPUトレーニングを効果的にサポートし,適用性を高めるために,通信効率のよい分散StreamBPを開発した。我々のコードは、任意のトランスフォーマーモデルのトレーニングパイプラインに簡単に統合することができ、https://github.com/Ledzy/StreamBP.comで利用可能です。

関連論文リスト

HelixPipe: Efficient Distributed Training of Long Sequence Transformers with Attention Parallel Pipeline Parallelism [14.067070576474086]
トランスシークエンスの長さが大きくなるにつれて、既存のパイプライン並列処理は2次注意計算とかなりのメモリオーバーヘッドのため、最適以下の性能を実現する。長周期変圧器訓練のための新しいパイプライン並列性であるHelixPipeを提案する。これは、異なるパイプラインステージ間で異なるマイクロバッチのアテンション計算を並列にスケジュールし、パイプラインバブルを減少させる、アテンション並列パーティションを導入している。メモリ使用量のバランスと、フラグメンテーションによる重複通信のバランスをとるために、2倍の第一段階のマイクロバッチスケジュールを採用している。
論文参考訳（メタデータ） (2025-07-01T03:11:18Z)
TAH-QUANT: Effective Activation Quantization in Pipeline Parallelism over Slow Network [21.231881562816373]
本稿では,パイプライン並列性に特化した新しいアクティベーション量子化フレームワークTAH-Quant(Tile-wise Adaptive Hadamard Quantization)を紹介する。提案手法は,精密制御のための細粒度タイルワイド量子化,最適ビット使用のためのエントロピー誘導トークンレベル適応ビット割り当て,およびピボット要素スワップを用いたアダマール変換を統合し,量子化出力を効果的に抑制する。
論文参考訳（メタデータ） (2025-06-02T06:13:41Z)
Scaling Recurrent Neural Networks to a Billion Parameters with Zero-Order Optimization [0.0]
FLOPとGPUメモリにおけるRNNのスケール定数は、コンテキスト長が増加する。変換器はFLOPで線形に、そしてせいぜい、生成中のメモリで線形にスケールする。標準最適化手法は時間によるバックプロパゲーションに依存しているため、長い文脈での大規模RNNの訓練は実用的ではない。
論文参考訳（メタデータ） (2025-05-23T13:04:06Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models [34.74093040678323]
我々は,高度に効率的かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な方法論であるDeepSpeed-Ulyssesを紹介した。 DeepSpeed-Ulyssesは、そのコアでシーケンス次元に沿って入力データを分割し、効率的なオール・ツー・オールの集合通信を用いて注意を払っている。実験の結果、DeepSpeed-Ulyssesは既存のSOTAベースラインの4倍のシーケンス長で2.5倍高速であることがわかった。
論文参考訳（メタデータ） (2023-09-25T20:15:57Z)
Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文参考訳（メタデータ） (2023-05-30T19:25:51Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Sequence Modeling with Multiresolution Convolutional Memory [27.218134279968062]
我々は、MultiresLayerと呼ばれるシーケンスモデリングのための新しいビルディングブロックを構築します。我々のモデルの主要な構成要素はマルチレゾリューション・コンボリューションであり、入力シーケンスにおけるマルチスケールトレンドをキャプチャする。本モデルでは,多数のシーケンス分類と自己回帰密度推定タスクについて,最先端の性能を示す。
論文参考訳（メタデータ） (2023-05-02T17:50:54Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。