論文の概要: End-to-end Adaptive Distributed Training on PaddlePaddle
- arxiv url: http://arxiv.org/abs/2112.02752v1
- Date: Mon, 6 Dec 2021 03:00:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 15:39:53.132507
- Title: End-to-end Adaptive Distributed Training on PaddlePaddle
- Title(参考訳): パドルパドルにおけるエンドツーエンド適応型分散トレーニング
- Authors: Yulong Ao, Zhihua Wu, Dianhai Yu, Weibao Gong, Zhiqing Kui, Minxu
Zhang, Zilingfeng Ye, Liang Shen, Yanjun Ma, Tian Wu, Haifeng Wang, Wei Zeng,
Chao Yang
- Abstract要約: 分散トレーニングフレームワークを体系的なエンドツーエンドのビューで設計し、さまざまなシナリオに適応機能を提供する。
統一分散グラフと統一クラスタオブジェクトに基づいて,我々の適応型フレームワークは,グローバルコストモデルとグローバルプランナを備えている。
実験により、我々のフレームワークはアプリケーションの多様性から様々な要件を満たすことができることが示された。
- 参考スコア(独自算出の注目度): 10.855328649169293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed training has become a pervasive and effective approach for
training a large neural network (NN) model with processing massive data.
However, it is very challenging to satisfy requirements from various NN models,
diverse computing resources, and their dynamic changes during a training job.
In this study, we design our distributed training framework in a systematic
end-to-end view to provide the built-in adaptive ability for different
scenarios, especially for industrial applications and production environments,
by fully considering resource allocation, model partition, task placement, and
distributed execution. Based on the unified distributed graph and the unified
cluster object, our adaptive framework is equipped with a global cost model and
a global planner, which can enable arbitrary parallelism, resource-aware
placement, multi-mode execution, fault-tolerant, and elastic distributed
training. The experiments demonstrate that our framework can satisfy various
requirements from the diversity of applications and the heterogeneity of
resources with highly competitive performance. The ERNIE language model with
260 billion parameters is efficiently trained on thousands of AI processors
with 91.7% weak scalability. The throughput of the model from the recommender
system by employing the heterogeneous pipeline asynchronous execution can be
increased up to 2.1 times and 3.3 times that of the GPU-only and CPU-only
training respectively. Moreover, the fault-tolerant and elastic distributed
training have been successfully applied to the online industrial applications,
which give a reduction of 34.49% in the number of failed long-term training
jobs and an increase of 33.91% for the global scheduling efficiency in the
production environment.
- Abstract(参考訳): 分散トレーニングは、大規模データを処理する大規模ニューラルネットワーク(NN)モデルをトレーニングするための、広く効果的なアプローチとなっている。
しかしながら、様々なnnモデル、多様なコンピューティングリソース、およびトレーニングジョブ中の動的変化からの要求を満たすことは非常に困難である。
本研究では,資源割当,モデル分割,タスク配置,分散実行を十分に考慮し,さまざまなシナリオ,特に産業用アプリケーションや実運用環境に対して,組込み可能な適応能力を提供するために,システム的なエンドツーエンド視点で分散トレーニングフレームワークを設計した。
統一分散グラフと統一クラスタオブジェクトに基づいて,我々の適応フレームワークは,任意の並列性,リソース認識配置,マルチモード実行,フォールトトレラント,弾性分散トレーニングを可能にするグローバルコストモデルとグローバルプランナを備えている。
実験により,我々のフレームワークは,アプリケーションの多様性や資源の多様性から,高い競合性能で様々な要求を満たせることを実証した。
260億のパラメータを持つERNIE言語モデルは、91.7%のスケーラビリティを持つ数千のAIプロセッサで効率的に訓練されている。
ヘテロジニアスパイプライン非同期実行によるレコメンダシステムからのモデルのスループットは、それぞれGPUのみのトレーニングとCPUのみのトレーニングの2.1倍と3.3倍に向上することができる。
さらに, オンライン産業応用において, 耐障害性および弾力性のある分散トレーニングが適用され, 長期研修業務の失敗数を34.49%, 生産環境におけるスケジューリング効率を33.91%向上させた。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - A Multi-Level Approach for Class Imbalance Problem in Federated Learning for Remote Industry 4.0 Applications [1.7416288134936873]
フォグシステムを用いたディープニューラルネットワーク(DNN)モデルのトレーニングは、フェデレートラーニング(FL)技術が解決可能なセキュリティ上の問題を引き起こす。
この場合、新しい課題は、局所的なデータセットで継承され、グローバルモデルの性能を低下させることができるクラス不均衡問題である。
さらに、グローバルモデルのロバスト性を高めるために、関連するワーカーモデルを選択する効率的な手法をグローバルレベルで採用する必要がある。
論文 参考訳(メタデータ) (2024-09-24T06:52:07Z) - Speed Up Federated Learning in Heterogeneous Environment: A Dynamic
Tiering Approach [5.504000607257414]
フェデレートラーニング(FL)は、トレーニングデータを分散化してプライベートにしながら、モデルを協調的にトレーニングすることを可能にする。
FLを用いたモデルのトレーニングにおける重要な障害の1つは、様々なタスクサイズだけでなく、不均一な計算と通信能力を持つデバイスのリソース制約である。
本稿では、動的タイリングに基づくフェデレート学習(DTFL)システムを提案する。このシステムでは、遅いクライアントがモデルの一部を動的にサーバにオフロードし、リソース制約を緩和し、トレーニングを高速化する。
論文 参考訳(メタデータ) (2023-12-09T19:09:19Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - REFT: Resource-Efficient Federated Training Framework for Heterogeneous
and Resource-Constrained Environments [2.117841684082203]
分散システムでは、フェデレートラーニング(FL)が重要な役割を果たす。
FLは、機械学習のプライバシ強化サブドメインとして出現する。
我々は「不均一・資源制約環境のための資源効率の良いフェデレーション・トレーニング・フレームワーク」を提案する。
論文 参考訳(メタデータ) (2023-08-25T20:33:30Z) - Integrating Local Real Data with Global Gradient Prototypes for
Classifier Re-Balancing in Federated Long-Tailed Learning [60.41501515192088]
フェデレートラーニング(FL)は、グローバルモデルを協調的にトレーニングする複数のクライアントを含む、人気のある分散ラーニングパラダイムになっています。
データサンプルは通常、現実世界の長い尾の分布に従っており、分散化された長い尾のデータのFLは、貧弱なグローバルモデルをもたらす。
本研究では、局所的な実データとグローバルな勾配のプロトタイプを統合し、局所的なバランスの取れたデータセットを形成する。
論文 参考訳(メタデータ) (2023-01-25T03:18:10Z) - Supernet Training for Federated Image Classification under System
Heterogeneity [15.2292571922932]
本研究では,2つのシナリオ,すなわちフェデレーション・オブ・スーパーネット・トレーニング(FedSup)を考えるための新しい枠組みを提案する。
フェデレートラーニング(FL)のモデルアグリゲーション段階でのパラメータの平均化は、スーパーネットトレーニングにおけるウェイトシェアリングとどのように似ているかに着想を得ている。
本フレームワークでは,通信コストの削減とトレーニングオーバーヘッドの低減のために,放送段階のクライアントにサブモデルを送信することで,効率的なアルゴリズム(E-FedSup)を提案する。
論文 参考訳(メタデータ) (2022-06-03T02:21:01Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - Parallel Successive Learning for Dynamic Distributed Model Training over
Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。
我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。
我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文 参考訳(メタデータ) (2022-02-07T05:11:01Z) - Efficient Device Scheduling with Multi-Job Federated Learning [64.21733164243781]
本稿では,複数のジョブの並列学習プロセスを実現するための,新しいマルチジョブフェデレーション学習フレームワークを提案する。
コストを最小化しつつ、複数のジョブに対してデバイスをスケジュールする強化学習法とベイズ最適化法を提案する。
提案手法は,トレーニング時間(最大8.67倍高速)と精度(最大44.6%高)において,ベースラインアプローチよりも有意に優れていた。
論文 参考訳(メタデータ) (2021-12-11T08:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。