論文の概要: Automatically Planning Optimal Parallel Strategy for Large Language Models
- arxiv url: http://arxiv.org/abs/2501.00254v1
- Date: Tue, 31 Dec 2024 03:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:16:56.864466
- Title: Automatically Planning Optimal Parallel Strategy for Large Language Models
- Title(参考訳): 大規模言語モデルのための最適並列戦略の自動計画
- Authors: Zongbiao Li, Xiezhao Li, Yinghao Cui, Yijun Chen, Zhixuan Gu, Yuxuan Liu, Wenbo Zhu, Fei Jia, Ke Liu, Qifeng Li, Junyao Zhan, Jiangtao Zhou, Chenxi Zhang, Qike Liu,
- Abstract要約: 本稿では,並列戦略を最大スループットで自動計画する並列アルゴリズムを提案する。
トレーニング時間を計算,通信,重複に分離することにより,トレーニング期間シミュレーションモデルを構築した。
マルチノード実験の結果、アルゴリズムは平均96%の精度でリアルタイムに並列トレーニング期間を推定できることが示されている。
- 参考スコア(独自算出の注目度): 9.804975588324035
- License:
- Abstract: The number of parameters in large-scale language models based on transformers is gradually increasing, and the scale of computing clusters is also growing. The technology of quickly mobilizing large amounts of computing resources for parallel computing is becoming increasingly important. In this paper, we propose an automatic parallel algorithm that automatically plans the parallel strategy with maximum throughput based on model and hardware information. By decoupling the training time into computation, communication, and overlap, we established a training duration simulation model. Based on this simulation model, we prune the parallel solution space to shorten the search time required. The multi-node experiment results show that the algorithm can estimate the parallel training duration in real time with an average accuracy of 96%. In our test, the recommendation strategy provided by the algorithm is always globally optimal.
- Abstract(参考訳): 変圧器に基づく大規模言語モデルにおけるパラメータの数は徐々に増加しており、計算クラスタの規模も増加している。
並列コンピューティングのための大量のコンピューティングリソースを迅速に動員する技術は、ますます重要になりつつある。
本稿では,モデル情報とハードウェア情報に基づいて並列戦略を最大スループットで自動計画する並列並列アルゴリズムを提案する。
トレーニング時間を計算,通信,重複に分離することにより,トレーニング期間シミュレーションモデルを構築した。
このシミュレーションモデルに基づいて,探索時間を短縮するために並列解空間を創出する。
マルチノード実験の結果、アルゴリズムは平均96%の精度でリアルタイムに並列トレーニング期間を推定できることが示されている。
我々のテストでは、アルゴリズムが提供する推奨戦略は常にグローバルに最適である。
関連論文リスト
- Hardware Scaling Trends and Diminishing Returns in Large-Scale Distributed Training [29.44470664154098]
ハードウェア構成と並列化戦略の注意深い検討が,モデルサイズ,トレーニングデータ,総計算の効果的なスケーリングに重要であることを示す。
我々は、モデルサイズ、ハードウェア構成、分散並列化戦略における大規模LLMトレーニングワークロードの性能に関する広範な実証的研究を行う。
論文 参考訳(メタデータ) (2024-11-20T06:05:11Z) - Scaling Studies for Efficient Parameter Search and Parallelism for Large
Language Model Pre-training [2.875838666718042]
並列および分散機械学習アルゴリズムの開発,特に5個のエンコーダデコーダLLMのデータの処理と事前学習の最適化に着目する。
我々は3つのMLメソッド間の関係を定量化するための詳細な研究を行い、特にMicrosoft DeepSpeed Zero Redundancyのステージを探索した。
論文 参考訳(メタデータ) (2023-10-09T02:22:00Z) - Performance and Energy Consumption of Parallel Machine Learning
Algorithms [0.0]
機械学習モデルは、様々な現実世界のアプリケーションで顕著な成功を収めた。
機械学習のモデルトレーニングには、大規模データセットと複数のイテレーションが必要である。
トレーニングアルゴリズムの並列化は、トレーニングのプロセスを高速化するための一般的な戦略である。
論文 参考訳(メタデータ) (2023-05-01T13:04:39Z) - Generative modeling of time-dependent densities via optimal transport
and projection pursuit [3.069335774032178]
本稿では,時間的モデリングのための一般的なディープラーニングアルゴリズムの代替として,安価に提案する。
我々の手法は最先端の解法と比較して非常に競争力がある。
論文 参考訳(メタデータ) (2023-04-19T13:50:13Z) - AsySQN: Faster Vertical Federated Learning Algorithms with Better
Computation Resource Utilization [159.75564904944707]
垂直連合学習(VFL)のための非同期準ニュートン(AsySQN)フレームワークを提案する。
提案アルゴリズムは、逆ヘッセン行列を明示的に計算することなく、近似して降下ステップをスケールする。
本稿では,非同期計算を採用することにより,計算資源の有効利用が期待できることを示す。
論文 参考訳(メタデータ) (2021-09-26T07:56:10Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z) - Real-Time Regression with Dividing Local Gaussian Processes [62.01822866877782]
局所ガウス過程は、ガウス過程の回帰に基づく新しい、計算効率の良いモデリング手法である。
入力空間の反復的データ駆動分割により、実際にはトレーニングポイントの総数において、サブ線形計算複雑性が達成される。
実世界のデータセットに対する数値的な評価は、予測と更新の速度だけでなく、精度の点で他の最先端手法よりも有利であることを示している。
論文 参考訳(メタデータ) (2020-06-16T18:43:31Z) - Subset Sampling For Progressive Neural Network Learning [106.12874293597754]
プログレッシブニューラルネットワーク学習は、ネットワークのトポロジを漸進的に構築し、トレーニングデータに基づいてパラメータを最適化するアルゴリズムのクラスである。
段階的なトレーニングステップ毎にトレーニングデータのサブセットを活用することで,このプロセスの高速化を提案する。
オブジェクト,シーン,顔の認識における実験結果から,提案手法が最適化手順を大幅に高速化することを示す。
論文 参考訳(メタデータ) (2020-02-17T18:57:33Z) - Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文 参考訳(メタデータ) (2020-02-10T10:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。