論文の概要: LightSeq: Sequence Level Parallelism for Distributed Training of Long
Context Transformers
- arxiv url: http://arxiv.org/abs/2310.03294v1
- Date: Thu, 5 Oct 2023 03:47:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 19:20:03.897118
- Title: LightSeq: Sequence Level Parallelism for Distributed Training of Long
Context Transformers
- Title(参考訳): LightSeq:ロングコンテキストトランスの分散トレーニングのためのシーケンスレベル並列処理
- Authors: Dacheng Li, Rulin Shao, Anze Xie, Eric P. Xing, Joseph E. Gonzalez,
Ion Stoica, Xuezhe Ma, Hao Zhang
- Abstract要約: 長文LLMトレーニングのための新しいアプローチLightSeqを導入する。
LightSeqはシーケンス次元を分割するので、モデルアーキテクチャには依存しない。
We show that LightSeq achieve to to 1.24-2.01x end-to-end speedup, and a 2-8 longer sequence length on models with less head, than Megatron-LM。
- 参考スコア(独自算出の注目度): 85.60198643033405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Increasing the context length of large language models (LLMs) unlocks
fundamentally new capabilities, but also significantly increases the memory
footprints of training. Previous model-parallel systems such as Megatron-LM
partition and compute different attention heads in parallel, resulting in large
communication volumes, so they cannot scale beyond the number of attention
heads, thereby hindering its adoption. In this paper, we introduce a new
approach, LightSeq, for long-context LLMs training. LightSeq has many notable
advantages. First, LightSeq partitions over the sequence dimension, hence is
agnostic to model architectures and readily applicable for models with varying
numbers of attention heads, such as Multi-Head, Multi-Query and Grouped-Query
attention. Second, LightSeq not only requires up to 4.7x less communication
than Megatron-LM on popular LLMs but also overlaps the communication with
computation. To further reduce the training time, LightSeq features a novel
gradient checkpointing scheme to bypass an forward computation for
memory-efficient attention. We evaluate LightSeq on Llama-7B and its variants
with sequence lengths from 32K to 512K. Through comprehensive experiments on
single and cross-node training, we show that LightSeq achieves up to 1.24-2.01x
end-to-end speedup, and a 2-8x longer sequence length on models with fewer
heads, compared to Megatron-LM. Codes will be available at
https://github.com/RulinShao/LightSeq.
- Abstract(参考訳): 大きな言語モデル(LLM)のコンテキスト長の増大は、基本的な新機能を解放すると同時に、トレーニングのメモリフットプリントを大幅に向上させる。
従来のMegatron-LMパーティションや異なるアテンションヘッドの並列計算のようなモデル並列システムは、大きな通信量をもたらすため、アテンションヘッドの数を超えてスケールできないため、採用を妨げる。
本稿では,LLMの長期学習のための新しいアプローチLightSeqを紹介する。
LightSeqには多くの大きな利点がある。
第一に、lightseq はシーケンス次元を分割するので、モデルアーキテクチャには依存せず、マルチヘッド、マルチクエリ、グループクエリなどの様々な注意ヘッドを持つモデルにも容易に適用できる。
第二に、LightSeqは一般的なLLMのMegatron-LMよりも4.7倍の通信を必要とするだけでなく、計算による通信も必要としている。
トレーニング時間を短縮するため、LightSeqはメモリ効率の注意のためにフォワード計算をバイパスする新しい勾配チェックポイント方式を備えている。
Llama-7B 上の LightSeq と,32K から 512K までのシーケンス長の変動について評価した。
シングルノードとクロスノードのトレーニングに関する包括的な実験を通じて、lightseqは最大1.24-2.01xのエンドツーエンドのスピードアップを達成し、megatron-lmと比較して頭数が少ないモデルでは2-8倍長いシーケンス長を実現していることを示した。
コードはhttps://github.com/rulinshao/lightseqで入手できる。
関連論文リスト
- MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention [36.49445805074941]
Minference (Milliontokens Inference) は長周期処理の前処理を高速化するスパース計算法である。
我々は,MInferenceが精度を維持しつつ,A100にプリフィルする際の推論遅延を最大10倍に効果的に低減できることを実証した。
論文 参考訳(メタデータ) (2024-07-02T17:59:56Z) - SUBLLM: A Novel Efficient Architecture with Token Sequence Subsampling for LLM [24.65339628772433]
SUBLLMは、サブサンプリング、アップサンプリング、バイパスモジュールを組み込むことで、コアデコーダのみのフレームワークを拡張する革新的なアーキテクチャである。
トレーニング中、SUBLLMはスピードを26%向上し、GPU毎にメモリを10GB削減する。
推論では、スピードを最大37%向上し、1GPUあたりのメモリを1GB削減する。
論文 参考訳(メタデータ) (2024-06-03T16:43:04Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - FlashAttention-2: Faster Attention with Better Parallelism and Work
Partitioning [11.508362885430133]
非対称なGPUメモリ階層を利用して、メモリの大幅な節約と実行時の高速化を実現しています。
FlashAttentionはまだGEMM(Optimized matrix-multiply)操作ほど高速ではなく、理論上の最大FLOP/sの25-40%にしか達していない。
これらの問題に対処するために、より優れた作業パーティショニングを備えたFlashAttention-2を提案する。
論文 参考訳(メタデータ) (2023-07-17T17:50:36Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。