論文の概要: Data-Centric and Heterogeneity-Adaptive Sequence Parallelism for Efficient LLM Training
- arxiv url: http://arxiv.org/abs/2412.01523v1
- Date: Mon, 02 Dec 2024 14:16:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:41:33.061097
- Title: Data-Centric and Heterogeneity-Adaptive Sequence Parallelism for Efficient LLM Training
- Title(参考訳): 効率的なLDMトレーニングのためのデータ中心および不均一性適応シーケンス並列性
- Authors: Yujie Wang, Shiju Wang, Shenhan Zhu, Fangcheng Fu, Xinyi Liu, Xuefeng Xiao, Huixia Li, Jiashi Li, Faming Wu, Bin Cui,
- Abstract要約: 既存のシーケンス並列化法は、均質なシーケンス長(すなわち全ての入力シーケンスの長さが等しい)を仮定し、従って全ての入力シーケンスに対して単一の静的散乱戦略を利用する。
LLMトレーニングコーパスの配列長は,長い尾分布の後に大きく変動することがわかった。
この問題に対処する不均一適応列並列化法を提案する。
- 参考スコア(独自算出の注目度): 33.23902060961886
- License:
- Abstract: Extending the context length (i.e., the maximum supported sequence length) of LLMs is of paramount significance. To facilitate long context training of LLMs, sequence parallelism has emerged as an essential technique, which scatters each input sequence across multiple devices and necessitates communication to process the sequence. In essence, existing sequence parallelism methods assume homogeneous sequence lengths (i.e., all input sequences are equal in length) and therefore leverages a single, static scattering strategy for all input sequences. However, in reality, the sequence lengths in LLM training corpora exhibit substantial variability, often following a long-tail distribution, which leads to workload heterogeneity. In this paper, we show that employing a single, static strategy results in inefficiency and resource under-utilization, highlighting the need for adaptive approaches to handle the heterogeneous workloads across sequences. To address this, we propose a heterogeneity-adaptive sequence parallelism method. For each training step, our approach captures the variability in sequence lengths and assigns the optimal combination of scattering strategies based on workload characteristics. We model this problem as a linear programming optimization and design an efficient and effective solver to find the optimal solution. Furthermore, we implement our method in a high-performance system that supports adaptive parallelization in distributed LLM training. Experimental results demonstrate that our system outperforms state-of-the-art training frameworks by up to 1.98x.
- Abstract(参考訳): LLMのコンテキスト長(すなわち最大サポートされたシーケンス長)を拡張することは、最重要事項である。
LLMの長期のコンテキストトレーニングを容易にするために、シーケンス並列性は、複数のデバイスにまたがって各入力シーケンスを分散させ、シーケンスを処理するために通信を必要とする重要な技術として登場した。
本質的に、既存のシーケンス並列化法は均質なシーケンス長(すなわち全ての入力シーケンスの長さが等しい)を仮定し、従って全ての入力シーケンスに対して単一の静的散乱戦略を利用する。
しかし、実際には、LLMトレーニングコーパスのシーケンス長は、しばしば長い尾の分布に従って、かなりの変動を示し、負荷の不均一性をもたらす。
本稿では,単一の静的戦略を用いることで,非効率性とリソースのアンダーユーティリティ化が実現し,シーケンス間の不均一なワークロードを処理するための適応的アプローチの必要性が浮き彫りになることを示す。
そこで本研究では,不均一適応列並列化手法を提案する。
トレーニングの各ステップにおいて,本手法はシーケンス長のばらつきを捉え,ワークロード特性に基づく散乱戦略の最適組み合わせを割り当てる。
我々はこの問題を線形プログラミング最適化としてモデル化し、最適解を見つけるための効率的かつ効率的な解法を設計する。
さらに,分散LLM学習における適応並列化を支援する高性能システムに本手法を実装した。
実験結果から,本システムは最先端のトレーニングフレームワークを最大1.98倍の性能で上回ることがわかった。
関連論文リスト
- Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Low-Rank Multitask Learning based on Tensorized SVMs and LSSVMs [65.42104819071444]
マルチタスク学習(MTL)はタスク関連性を活用して性能を向上させる。
タスクインデックスに対応する各モードを持つ高次テンソルを用いて、複数のインデックスが参照するタスクを自然に表現する。
テンソル化サポートベクターマシン(SVM)と最小2乗サポートベクターマシン(LSSVM)を併用した低ランクMTL手法の汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T14:28:26Z) - Improving Automatic Parallel Training via Balanced Memory Workload
Optimization [36.87527680184956]
トランスフォーマーモデルは、様々なアプリケーションドメインで最先端のパフォーマンスを達成するための主要なアプローチとして現れています。
本稿では,複数の並列性を持つ次元を統合し,最も効率的なハイブリッド並列性戦略を自動的に識別する新しいシステムフレームワークであるGalvatron-BMWを提案する。
異なるTransformerモデルを用いた評価では,Galvatron-BMWがGPUメモリ制約の異なる分散トレーニングを自動化できることが示されている。
論文 参考訳(メタデータ) (2023-07-05T05:28:38Z) - Parallel Training of GRU Networks with a Multi-Grid Solver for Long
Sequences [1.9798034349981162]
本稿では,GRU(Gated Recurrent Unit)ネットワークのための並列学習手法を提案する。
MGRITはシーケンスを複数の短いサブシーケンスに分割し、異なるプロセッサ上のサブシーケンスを並列に訓練する。
HMDB51データセットにおいて、各ビデオが画像シーケンスである実験結果から、新しい並列トレーニングスキームがシリアルアプローチよりも最大6.5$times$スピードアップを達成することを示した。
論文 参考訳(メタデータ) (2022-03-07T11:32:44Z) - Data-efficient Alignment of Multimodal Sequences by Aligning Gradient
Updates and Internal Feature Distributions [36.82512331179322]
近年の研究では、異なるモダリティを扱うネットワークコンポーネントが、異なる速度でオーバーフィットし、一般化し、トレーニングの難しさを生んでいることが示唆されている。
本稿では,各層における勾配更新の規模を調整し,学習速度のバランスをとるため,LARS(Layer-wise Adaptive Rate Scaling)を提案する。
また、シーケンスワイドバッチ正規化(SBN)を用いて、内部の特徴分布を異なるモードから整列する。
論文 参考訳(メタデータ) (2020-11-15T13:04:25Z) - EOS: a Parallel, Self-Adaptive, Multi-Population Evolutionary Algorithm
for Constrained Global Optimization [68.8204255655161]
EOSは実数値変数の制約付きおよび制約なし問題に対する大域的最適化アルゴリズムである。
これはよく知られた微分進化(DE)アルゴリズムに多くの改良を加えている。
その結果、EOSisは、最先端の単一人口自己適応Dアルゴリズムと比較して高い性能を達成可能であることが証明された。
論文 参考訳(メタデータ) (2020-07-09T10:19:22Z) - Randomized Block-Diagonal Preconditioning for Parallel Learning [0.0]
本研究では,プレコンディショニング行列がブロック対角形を持つ事前条件付き勾配に基づく最適化手法について検討する。
本研究の主な貢献は,これらの手法の収束性がランダム化手法によって著しく向上できることを実証することである。
論文 参考訳(メタデータ) (2020-06-24T10:12:36Z) - Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文 参考訳(メタデータ) (2020-02-10T10:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。