Fugu-MT 論文翻訳(概要): LightSeq: Sequence Level Parallelism for Distributed Training of Long Context Transformers

論文の概要: LightSeq: Sequence Level Parallelism for Distributed Training of Long Context Transformers

arxiv url: http://arxiv.org/abs/2310.03294v1
Date: Thu, 5 Oct 2023 03:47:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-06 19:20:03.897118
Title: LightSeq: Sequence Level Parallelism for Distributed Training of Long Context Transformers
Title（参考訳）: LightSeq:ロングコンテキストトランスの分散トレーニングのためのシーケンスレベル並列処理
Authors: Dacheng Li, Rulin Shao, Anze Xie, Eric P. Xing, Joseph E. Gonzalez, Ion Stoica, Xuezhe Ma, Hao Zhang
Abstract要約: 長文LLMトレーニングのための新しいアプローチLightSeqを導入する。 LightSeqはシーケンス次元を分割するので、モデルアーキテクチャには依存しない。 We show that LightSeq achieve to to 1.24-2.01x end-to-end speedup, and a 2-8 longer sequence length on models with less head, than Megatron-LM。
参考スコア（独自算出の注目度）: 85.60198643033405
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Increasing the context length of large language models (LLMs) unlocks fundamentally new capabilities, but also significantly increases the memory footprints of training. Previous model-parallel systems such as Megatron-LM partition and compute different attention heads in parallel, resulting in large communication volumes, so they cannot scale beyond the number of attention heads, thereby hindering its adoption. In this paper, we introduce a new approach, LightSeq, for long-context LLMs training. LightSeq has many notable advantages. First, LightSeq partitions over the sequence dimension, hence is agnostic to model architectures and readily applicable for models with varying numbers of attention heads, such as Multi-Head, Multi-Query and Grouped-Query attention. Second, LightSeq not only requires up to 4.7x less communication than Megatron-LM on popular LLMs but also overlaps the communication with computation. To further reduce the training time, LightSeq features a novel gradient checkpointing scheme to bypass an forward computation for memory-efficient attention. We evaluate LightSeq on Llama-7B and its variants with sequence lengths from 32K to 512K. Through comprehensive experiments on single and cross-node training, we show that LightSeq achieves up to 1.24-2.01x end-to-end speedup, and a 2-8x longer sequence length on models with fewer heads, compared to Megatron-LM. Codes will be available at https://github.com/RulinShao/LightSeq.
Abstract（参考訳）: 大きな言語モデル(LLM)のコンテキスト長の増大は、基本的な新機能を解放すると同時に、トレーニングのメモリフットプリントを大幅に向上させる。従来のMegatron-LMパーティションや異なるアテンションヘッドの並列計算のようなモデル並列システムは、大きな通信量をもたらすため、アテンションヘッドの数を超えてスケールできないため、採用を妨げる。本稿では,LLMの長期学習のための新しいアプローチLightSeqを紹介する。 LightSeqには多くの大きな利点がある。第一に、lightseq はシーケンス次元を分割するので、モデルアーキテクチャには依存せず、マルチヘッド、マルチクエリ、グループクエリなどの様々な注意ヘッドを持つモデルにも容易に適用できる。第二に、LightSeqは一般的なLLMのMegatron-LMよりも4.7倍の通信を必要とするだけでなく、計算による通信も必要としている。トレーニング時間を短縮するため、LightSeqはメモリ効率の注意のためにフォワード計算をバイパスする新しい勾配チェックポイント方式を備えている。 Llama-7B 上の LightSeq と,32K から 512K までのシーケンス長の変動について評価した。シングルノードとクロスノードのトレーニングに関する包括的な実験を通じて、lightseqは最大1.24-2.01xのエンドツーエンドのスピードアップを達成し、megatron-lmと比較して頭数が少ないモデルでは2-8倍長いシーケンス長を実現していることを示した。コードはhttps://github.com/rulinshao/lightseqで入手できる。

関連論文リスト

70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU [48.105361428245736]
大規模言語モデル(LLM)の推論フレームワークであるInfiniteHiPを紹介する。モジュール型階層型トークンプルーニングアルゴリズムにより,無関係なコンテキストトークンを動的に除去する。我々のフレームワークは、追加のトレーニングを必要とせず、100万のトークンコンテキストに対して18.95倍のアテンションデコーディングを実現する。
論文参考訳（メタデータ） (2025-02-13T02:52:01Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention [36.49445805074941]
Minference (Milliontokens Inference) は長周期処理の前処理を高速化するスパース計算法である。我々は,MInferenceが精度を維持しつつ,A100にプリフィルする際の推論遅延を最大10倍に効果的に低減できることを実証した。
論文参考訳（メタデータ） (2024-07-02T17:59:56Z)
SUBLLM: A Novel Efficient Architecture with Token Sequence Subsampling for LLM [24.65339628772433]
SUBLLMは、サブサンプリング、アップサンプリング、バイパスモジュールを組み込むことで、コアデコーダのみのフレームワークを拡張する革新的なアーキテクチャである。トレーニング中、SUBLLMはスピードを26%向上し、GPU毎にメモリを10GB削減する。推論では、スピードを最大37%向上し、1GPUあたりのメモリを1GB削減する。
論文参考訳（メタデータ） (2024-06-03T16:43:04Z)
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文参考訳（メタデータ） (2024-05-28T22:19:30Z)
InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。 InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-02-07T06:50:42Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning [11.508362885430133]
非対称なGPUメモリ階層を利用して、メモリの大幅な節約と実行時の高速化を実現しています。 FlashAttentionはまだGEMM(Optimized matrix-multiply)操作ほど高速ではなく、理論上の最大FLOP/sの25-40%にしか達していない。これらの問題に対処するために、より優れた作業パーティショニングを備えたFlashAttention-2を提案する。
論文参考訳（メタデータ） (2023-07-17T17:50:36Z)
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。 FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文参考訳（メタデータ） (2022-05-27T17:53:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。