論文の概要: LightSeq: Sequence Level Parallelism for Distributed Training of Long
Context Transformers
- arxiv url: http://arxiv.org/abs/2310.03294v1
- Date: Thu, 5 Oct 2023 03:47:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 19:20:03.897118
- Title: LightSeq: Sequence Level Parallelism for Distributed Training of Long
Context Transformers
- Title(参考訳): LightSeq:ロングコンテキストトランスの分散トレーニングのためのシーケンスレベル並列処理
- Authors: Dacheng Li, Rulin Shao, Anze Xie, Eric P. Xing, Joseph E. Gonzalez,
Ion Stoica, Xuezhe Ma, Hao Zhang
- Abstract要約: 長文LLMトレーニングのための新しいアプローチLightSeqを導入する。
LightSeqはシーケンス次元を分割するので、モデルアーキテクチャには依存しない。
We show that LightSeq achieve to to 1.24-2.01x end-to-end speedup, and a 2-8 longer sequence length on models with less head, than Megatron-LM。
- 参考スコア(独自算出の注目度): 85.60198643033405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Increasing the context length of large language models (LLMs) unlocks
fundamentally new capabilities, but also significantly increases the memory
footprints of training. Previous model-parallel systems such as Megatron-LM
partition and compute different attention heads in parallel, resulting in large
communication volumes, so they cannot scale beyond the number of attention
heads, thereby hindering its adoption. In this paper, we introduce a new
approach, LightSeq, for long-context LLMs training. LightSeq has many notable
advantages. First, LightSeq partitions over the sequence dimension, hence is
agnostic to model architectures and readily applicable for models with varying
numbers of attention heads, such as Multi-Head, Multi-Query and Grouped-Query
attention. Second, LightSeq not only requires up to 4.7x less communication
than Megatron-LM on popular LLMs but also overlaps the communication with
computation. To further reduce the training time, LightSeq features a novel
gradient checkpointing scheme to bypass an forward computation for
memory-efficient attention. We evaluate LightSeq on Llama-7B and its variants
with sequence lengths from 32K to 512K. Through comprehensive experiments on
single and cross-node training, we show that LightSeq achieves up to 1.24-2.01x
end-to-end speedup, and a 2-8x longer sequence length on models with fewer
heads, compared to Megatron-LM. Codes will be available at
https://github.com/RulinShao/LightSeq.
- Abstract(参考訳): 大きな言語モデル(LLM)のコンテキスト長の増大は、基本的な新機能を解放すると同時に、トレーニングのメモリフットプリントを大幅に向上させる。
従来のMegatron-LMパーティションや異なるアテンションヘッドの並列計算のようなモデル並列システムは、大きな通信量をもたらすため、アテンションヘッドの数を超えてスケールできないため、採用を妨げる。
本稿では,LLMの長期学習のための新しいアプローチLightSeqを紹介する。
LightSeqには多くの大きな利点がある。
第一に、lightseq はシーケンス次元を分割するので、モデルアーキテクチャには依存せず、マルチヘッド、マルチクエリ、グループクエリなどの様々な注意ヘッドを持つモデルにも容易に適用できる。
第二に、LightSeqは一般的なLLMのMegatron-LMよりも4.7倍の通信を必要とするだけでなく、計算による通信も必要としている。
トレーニング時間を短縮するため、LightSeqはメモリ効率の注意のためにフォワード計算をバイパスする新しい勾配チェックポイント方式を備えている。
Llama-7B 上の LightSeq と,32K から 512K までのシーケンス長の変動について評価した。
シングルノードとクロスノードのトレーニングに関する包括的な実験を通じて、lightseqは最大1.24-2.01xのエンドツーエンドのスピードアップを達成し、megatron-lmと比較して頭数が少ないモデルでは2-8倍長いシーケンス長を実現していることを示した。
コードはhttps://github.com/rulinshao/lightseqで入手できる。
関連論文リスト
- Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs [15.276687781165608]
大規模言語モデル(LLM)は、インテリジェントアシスタント、テキスト要約、翻訳、携帯電話でのマルチモダリティといったタスクに広く使われている。
デバイスGPU上でのLLMの高効率展開を容易にするため,我々は4つの最適化手法を提案する。
モバイル推論エンジンであるTransformer-LiteはQualcommおよびMTKプロセッサと互換性がある。
論文 参考訳(メタデータ) (2024-03-29T08:26:53Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [139.19973370560533]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - InfLLM: Unveiling the Intrinsic Capacity of LLMs for Understanding
Extremely Long Sequences with Training-Free Memory [99.22913822705523]
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
本稿では,LLMのストリーミング長列処理能力を明らかにするために,トレーニング不要なメモリベースのInfLLMを提案する。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [55.61026644837707]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Break the Sequential Dependency of LLM Inference Using Lookahead
Decoding [27.87483106859749]
Lookahead decodingは、大規模言語モデル(LLM)のための正確な並列デコーディングアルゴリズムである。
実装により,MT-benchでは1.8倍,コード補完タスクでは4倍まで高速に自動回帰復号を行うことができる。
論文 参考訳(メタデータ) (2024-02-03T06:37:50Z) - TCNCA: Temporal Convolution Network with Chunked Attention for Scalable
Sequence Processing [52.64837396100988]
MEGAは最近のトランスフォーマーベースのアーキテクチャで、線形リカレント演算子を使用し、並列計算はFFTに基づいて、$O(LlogL)$で、$L$はシーケンス長である。
線形再帰を特別な時間的畳み込みネットワークに置き換えることで、より浅いネットワークでより大きい受容場を許容し、計算複雑性を$O(L)$に減らし、それらのアプローチを構築する。
我々は,EnWik8言語モデリングにおけるTCNCA,LRA(Long-range-arena)シーケンス分類,および合成推論ベンチマーク連想リコールの評価を行った。
論文 参考訳(メタデータ) (2023-12-09T16:12:25Z) - FlashAttention-2: Faster Attention with Better Parallelism and Work
Partitioning [11.508362885430133]
非対称なGPUメモリ階層を利用して、メモリの大幅な節約と実行時の高速化を実現しています。
FlashAttentionはまだGEMM(Optimized matrix-multiply)操作ほど高速ではなく、理論上の最大FLOP/sの25-40%にしか達していない。
これらの問題に対処するために、より優れた作業パーティショニングを備えたFlashAttention-2を提案する。
論文 参考訳(メタデータ) (2023-07-17T17:50:36Z) - Simple Hardware-Efficient Long Convolutions for Sequence Modeling [18.3719016967593]
状態空間モデル(SSM)は、長いシーケンスモデリングにおいて高い性能を持つ。
単純な代替手段が性能と効率においてSSMと一致するかどうかを考察する。
我々は、長い畳み込みのランタイム性能を改善するためのIO対応アルゴリズムであるFlashButterflyを開発した。
論文 参考訳(メタデータ) (2023-02-13T19:19:23Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。