論文の概要: Data-Centric and Heterogeneity-Adaptive Sequence Parallelism for Efficient LLM Training
- arxiv url: http://arxiv.org/abs/2412.01523v1
- Date: Mon, 02 Dec 2024 14:16:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:41:33.061097
- Title: Data-Centric and Heterogeneity-Adaptive Sequence Parallelism for Efficient LLM Training
- Title(参考訳): 効率的なLDMトレーニングのためのデータ中心および不均一性適応シーケンス並列性
- Authors: Yujie Wang, Shiju Wang, Shenhan Zhu, Fangcheng Fu, Xinyi Liu, Xuefeng Xiao, Huixia Li, Jiashi Li, Faming Wu, Bin Cui,
- Abstract要約: 既存のシーケンス並列化法は、均質なシーケンス長(すなわち全ての入力シーケンスの長さが等しい)を仮定し、従って全ての入力シーケンスに対して単一の静的散乱戦略を利用する。
LLMトレーニングコーパスの配列長は,長い尾分布の後に大きく変動することがわかった。
この問題に対処する不均一適応列並列化法を提案する。
- 参考スコア(独自算出の注目度): 33.23902060961886
- License:
- Abstract: Extending the context length (i.e., the maximum supported sequence length) of LLMs is of paramount significance. To facilitate long context training of LLMs, sequence parallelism has emerged as an essential technique, which scatters each input sequence across multiple devices and necessitates communication to process the sequence. In essence, existing sequence parallelism methods assume homogeneous sequence lengths (i.e., all input sequences are equal in length) and therefore leverages a single, static scattering strategy for all input sequences. However, in reality, the sequence lengths in LLM training corpora exhibit substantial variability, often following a long-tail distribution, which leads to workload heterogeneity. In this paper, we show that employing a single, static strategy results in inefficiency and resource under-utilization, highlighting the need for adaptive approaches to handle the heterogeneous workloads across sequences. To address this, we propose a heterogeneity-adaptive sequence parallelism method. For each training step, our approach captures the variability in sequence lengths and assigns the optimal combination of scattering strategies based on workload characteristics. We model this problem as a linear programming optimization and design an efficient and effective solver to find the optimal solution. Furthermore, we implement our method in a high-performance system that supports adaptive parallelization in distributed LLM training. Experimental results demonstrate that our system outperforms state-of-the-art training frameworks by up to 1.98x.
- Abstract(参考訳): LLMのコンテキスト長(すなわち最大サポートされたシーケンス長)を拡張することは、最重要事項である。
LLMの長期のコンテキストトレーニングを容易にするために、シーケンス並列性は、複数のデバイスにまたがって各入力シーケンスを分散させ、シーケンスを処理するために通信を必要とする重要な技術として登場した。
本質的に、既存のシーケンス並列化法は均質なシーケンス長(すなわち全ての入力シーケンスの長さが等しい)を仮定し、従って全ての入力シーケンスに対して単一の静的散乱戦略を利用する。
しかし、実際には、LLMトレーニングコーパスのシーケンス長は、しばしば長い尾の分布に従って、かなりの変動を示し、負荷の不均一性をもたらす。
本稿では,単一の静的戦略を用いることで,非効率性とリソースのアンダーユーティリティ化が実現し,シーケンス間の不均一なワークロードを処理するための適応的アプローチの必要性が浮き彫りになることを示す。
そこで本研究では,不均一適応列並列化手法を提案する。
トレーニングの各ステップにおいて,本手法はシーケンス長のばらつきを捉え,ワークロード特性に基づく散乱戦略の最適組み合わせを割り当てる。
我々はこの問題を線形プログラミング最適化としてモデル化し、最適解を見つけるための効率的かつ効率的な解法を設計する。
さらに,分散LLM学習における適応並列化を支援する高性能システムに本手法を実装した。
実験結果から,本システムは最先端のトレーニングフレームワークを最大1.98倍の性能で上回ることがわかった。
関連論文リスト
- Transformer-Squared: Self-adaptive LLMs [29.1326358746118]
そこで我々はTransformer-Squaredという新しい自己適応フレームワークを紹介した。
提案手法は,LoRAなどのユビキタスな手法よりもパラメータが少なく,効率も向上する。
Transformer-Squaredは、LLMの適応性とタスク固有のパフォーマンスを向上させる、スケーラブルで効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-01-09T01:19:21Z) - Demystifying Workload Imbalances in Large Transformer Model Training over Variable-length Sequences [31.232756326457277]
我々は並列戦略とデータ割り当てを協調的に最適化するHydraulisを開発する。
実験の結果、Hydraulis は既存のシステムよりも 1.32-2.66 倍高い性能を示した。
論文 参考訳(メタデータ) (2024-12-10T20:01:53Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Linear Attention Sequence Parallelism [33.06590170649837]
線形アテンションに基づく変圧器モデルのための線形アテンションシーケンス並列性(LASP)を導入する。
LASPは、線形注意による適切な製品カーネルトリックを活用し、通信オーバーヘッドを劇的に削減する。
LASPは128GPU上で4096Kまでのシーケンス長をスケールし、既存のSPメソッドよりも8$times$長い。
論文 参考訳(メタデータ) (2024-04-03T17:33:21Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Low-Rank Multitask Learning based on Tensorized SVMs and LSSVMs [65.42104819071444]
マルチタスク学習(MTL)はタスク関連性を活用して性能を向上させる。
タスクインデックスに対応する各モードを持つ高次テンソルを用いて、複数のインデックスが参照するタスクを自然に表現する。
テンソル化サポートベクターマシン(SVM)と最小2乗サポートベクターマシン(LSSVM)を併用した低ランクMTL手法の汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T14:28:26Z) - Improving Automatic Parallel Training via Balanced Memory Workload
Optimization [36.87527680184956]
トランスフォーマーモデルは、様々なアプリケーションドメインで最先端のパフォーマンスを達成するための主要なアプローチとして現れています。
本稿では,複数の並列性を持つ次元を統合し,最も効率的なハイブリッド並列性戦略を自動的に識別する新しいシステムフレームワークであるGalvatron-BMWを提案する。
異なるTransformerモデルを用いた評価では,Galvatron-BMWがGPUメモリ制約の異なる分散トレーニングを自動化できることが示されている。
論文 参考訳(メタデータ) (2023-07-05T05:28:38Z) - EOS: a Parallel, Self-Adaptive, Multi-Population Evolutionary Algorithm
for Constrained Global Optimization [68.8204255655161]
EOSは実数値変数の制約付きおよび制約なし問題に対する大域的最適化アルゴリズムである。
これはよく知られた微分進化(DE)アルゴリズムに多くの改良を加えている。
その結果、EOSisは、最先端の単一人口自己適応Dアルゴリズムと比較して高い性能を達成可能であることが証明された。
論文 参考訳(メタデータ) (2020-07-09T10:19:22Z) - Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文 参考訳(メタデータ) (2020-02-10T10:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。