Fugu-MT 論文翻訳(概要): Echo: Simulating Distributed Training At Scale

論文の概要: Echo: Simulating Distributed Training At Scale

arxiv url: http://arxiv.org/abs/2412.12487v1
Date: Tue, 17 Dec 2024 02:44:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 17:09:38.518046
Title: Echo: Simulating Distributed Training At Scale
Title（参考訳）: Echo: 大規模分散トレーニングのシミュレーション
Authors: Yicheng Feng, Yuetao Chen, Kaiwen Chen, Jingzong Li, Tianyuan Wu, Peng Cheng, Chuan Wu, Wei Wang, Tsung-Yi Ho, Hong Xu,
Abstract要約: 当社は,大規模なトレーニングシミュレーションにおいて,3つの重要な課題に取り組むために,Echoを構築しています。 Echoは、トレーニングステップにおける平均8%のエラーを提供する。
参考スコア（独自算出の注目度）: 20.589262446733077
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Simulation offers unique values for both enumeration and extrapolation purposes, and is becoming increasingly important for managing the massive machine learning (ML) clusters and large-scale distributed training jobs. In this paper, we build Echo to tackle three key challenges in large-scale training simulation: (1) tracing the runtime training workloads at each device in an ex-situ fashion so we can use a single device to obtain the actual execution graphs of 1K-GPU training, (2) accurately estimating the collective communication without high overheads of discrete-event based network simulation, and (3) accounting for the interference-induced computation slowdown from overlapping communication and computation kernels on the same device. Echo delivers on average 8% error in training step -- roughly 3x lower than state-of-the-art simulators -- for GPT-175B on a 96-GPU H800 cluster with 3D parallelism on Megatron-LM under 2 minutes.
Abstract（参考訳）: シミュレーションは列挙と外挿の両方の目的でユニークな値を提供しており、大規模な機械学習(ML)クラスタと大規模分散トレーニングジョブを管理する上でますます重要になっている。本稿では,1つのデバイスで1K-GPUトレーニングの実際の実行グラフを得るために,1つのデバイスを用いて,1K-GPUトレーニングの実際の実行グラフを取得すること,2)離散イベントベースのネットワークシミュレーションのオーバーヘッドを伴わずに,集団通信を正確に推定すること,3)同じデバイス上で重複する通信や計算カーネルからの干渉誘起計算の遅延を考慮すること,という,大規模なトレーニングシミュレーションにおける3つの課題に対処するために,Echoを構築した。 96-GPU H800クラスタ上でのGPT-175Bのトレーニングステップでは,平均8%のエラー – 最先端シミュレータの約3倍低い – が,Megatron-LMでは2分未満で3D並列性を備えている。

関連論文リスト

Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms [4.127488674019288]
大規模言語モデルのポストトレーニングは、同じGPUクラスタ上でトラジェクトリサンプリングとポリシ最適化を併用する。ヘテロジニアスな"推論"と"トレーニング"スワムにまたがって、これらの2つのフェーズをきれいに分離するRLシステムであるEchoを紹介します。
論文参考訳（メタデータ） (2025-08-07T13:37:04Z)
AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
Parm: Efficient Training of Large Sparsely-Activated Models with Dedicated Schedules [15.680276212483292]
本稿では,MP+EP+ESP学習を高速化するParmを提案する。 Parmは、1.13$times$から5.77$times$のスピードアップを実現し、1296年に手動で設定されたMoEレイヤと、2つの現実世界のMoEモデルで約3$times$の改善を行った。
論文参考訳（メタデータ） (2024-06-30T05:55:11Z)
Towards Universal Performance Modeling for Machine Learning Training on Multi-GPU Platforms [4.959530958049395]
我々は,コンピュータシステム上での機械学習(ML)ワークロードのトレーニングパフォーマンスを特徴付けるパイプラインを開発し,予測する。私たちのパイプラインは、TransformerベースのNLPモデルなど、他のタイプのMLワークロードに一般化されています。最速の埋め込みテーブルシャーディング構成を素早く選択するような洞察を生成することができる。
論文参考訳（メタデータ） (2024-04-19T07:20:33Z)
Efficient Asynchronous Federated Learning with Sparsification and Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。 FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。 TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文参考訳（メタデータ） (2023-12-23T07:47:07Z)
SciAI4Industry -- Solving PDEs for industry-scale problems with deep learning [1.642765885524881]
ユーザによるHPCインフラストラクチャの管理を必要とせずに,クラウド上で並列にトレーニングデータをシミュレートする分散プログラミングAPIを導入する。我々は3D Navier-Stokes方程式を解くために大規模ニューラルネットワークを訓練し、多孔質媒質中の3D CO2フローをシミュレーションする。 CO2の例では、商用の炭素捕獲・貯蔵(CCS)プロジェクトに基づくトレーニングデータセットをシミュレートし、従来の数値シミュレータよりも5桁高速で3200倍安い200万以上のセルを持つ3Dグリッド上で、CO2フローシミュレーションのためのニューラルネットワークをトレーニングする。
論文参考訳（メタデータ） (2022-11-23T05:15:32Z)
Continual learning autoencoder training for a particle-in-cell simulation via streaming [52.77024349608834]
今後のエクサスケール時代は次世代の物理シミュレーションを高解像度で提供しますこれらのシミュレーションは高解像度であり、ディスク上に大量のシミュレーションデータを格納することはほぼ不可能であるため、機械学習モデルのトレーニングに影響を与える。この研究は、ディスク上のデータなしで、実行中のシミュレーションにニューラルネットワークを同時にトレーニングするアプローチを示す。
論文参考訳（メタデータ） (2022-11-09T09:55:14Z)
Decentralized Training of Foundation Models in Heterogeneous Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文参考訳（メタデータ） (2022-06-02T20:19:51Z)
Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文参考訳（メタデータ） (2021-03-12T00:22:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。