論文の概要: Scaling Up Data Parallelism in Decentralized Deep Learning
- arxiv url: http://arxiv.org/abs/2509.12213v1
- Date: Sun, 31 Aug 2025 17:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-21 06:05:45.804062
- Title: Scaling Up Data Parallelism in Decentralized Deep Learning
- Title(参考訳): 分散ディープラーニングにおけるデータ並列化のスケールアップ
- Authors: Bing Xie, Junqi Yin, Zhenyu Zhou, Sarp Oral, Feiyi Wang,
- Abstract要約: 分散学習は、大規模DNNトレーニングにおける安定性、スケーラビリティ、汎用性の欠如から、まだ製品利用にグリーンライトを当てていない。
本稿では,分散SGD法に従って大規模DNN訓練を行う分散適応型アプローチであるAdaを提案し,トレーニングを通して使用中の通信グラフを動的に適用する。
- 参考スコア(独自算出の注目度): 6.059539855453347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although it has been extensively explored in theory, decentralized learning is not yet green-lighted for production use, largely due to a lack of stability, scalability, and generality in large scale DNN training. To shed light on the production use of decentralized learning, this work studies decentralized data parallel training at scale. To this end, we introduce a benchmarking framework, namely DBench, to host both centralized and decentralized DNN training. Building upon DBench, we introduce a benchmarking methodology to uncover the correlations between model accuracy and the variances of parameter tensors by varying communication graphs and training scales. Based on the benchmarking results, we observe that, (1) Similar to centralized learning, decentralized data parallel training also presents the issues of scalability and generality when the training scales up; (2) The model accuracy of decentralized learning is correlated to the number of connections in a communication graph; (3) The model accuracy of decentralized learning is surprisingly sensitive to the variance of parameter tensors across model replicas. Built upon the observations, we propose Ada, a decentralized adaptive approach that performs large scale DNN training following a decentralized SGD method and adapting the communication graph in use dynamically throughout training iterations. We apply Ada on large scale training and observe that Ada can obtain the best convergence rates consistently in decentralized DNN training, and delivers equally or comparably good model accuracy for all sample applications as centralized learning does, even when training ResNet50 for ImageNet-1K on the scale of 1008 GPUs.
- Abstract(参考訳): 理論上は広く研究されているが、大規模DNNトレーニングにおける安定性、スケーラビリティ、汎用性の欠如から、分散学習は本番環境ではまだ緑化されていない。
この研究は、分散学習の本番利用を浮き彫りにするため、大規模に分散したデータ並列トレーニングについて研究する。
この目的のために,集中型DNNトレーニングと分散型DNNトレーニングの両方をホストするベンチマークフレームワークであるDBenchを導入する。
本稿では,DBenchに基づいて,モデル精度とパラメータテンソルの分散の相関関係を明らかにするためのベンチマーク手法を提案する。
ベンチマークの結果から,(1)集中学習と異なり,訓練の規模が大きくなると,分散学習のモデル精度は通信グラフの接続数と相関し,(3)分散学習のモデル精度は,モデルレプリカ間のパラメータテンソルのばらつきに驚くほど敏感であることがわかった。
そこで本研究では,分散SGD法に従って大規模DNN訓練を行う分散適応型アプローチであるAdaを提案し,トレーニングイテレーションを通じて使用中の通信グラフを動的に適用する。
我々はAdaを大規模トレーニングに適用し、Adaが分散DNNトレーニングにおいて一貫した収束率を得ることができ、1008GPUのスケールでImageNet-1KでResNet50をトレーニングした場合であっても、集中学習と同様に、すべてのサンプルアプリケーションに対して等しく、かつ、可分に優れたモデル精度を提供できることを観察する。
関連論文リスト
- NTK-DFL: Enhancing Decentralized Federated Learning in Heterogeneous Settings via Neural Tangent Kernel [27.92271597111756]
Decentralized Federated Learning (DFL) は、中央サーバや生のデータ交換なしで参加者間でモデルをトレーニングするための、協調的な機械学習フレームワークである。
近年の研究では、集中型フレームワークにおけるフェデレーション学習に適用されたニューラルタンジェントカーネル(NTK)アプローチが、パフォーマンスの向上につながることが示されている。
本稿では,NTKベースの進化とモデル平均化の相乗効果を導入しながら,分散環境でクライアントモデルを訓練するためにNTKを活用するアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-02T18:19:28Z) - Scheduling and Communication Schemes for Decentralized Federated
Learning [0.31410859223862103]
勾配降下(SGD)アルゴリズムを用いた分散連合学習(DFL)モデルが導入された。
DFLの3つのスケジューリングポリシーがクライアントと並列サーバ間の通信のために提案されている。
その結果,提案した計画警察は,収束速度と最終グローバルモデルの両方に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2023-11-27T17:35:28Z) - Global Update Tracking: A Decentralized Learning Algorithm for
Heterogeneous Data [14.386062807300666]
本稿では,デバイス間のデータ分散の変化の影響を受けにくい分散学習アルゴリズムの設計に焦点をあてる。
我々は,分散学習における異種データの影響を,通信オーバーヘッドを伴わずに緩和することを目的とした,新たなトラッキングベース手法であるGUTを提案する。
提案手法は,既存手法と比較して1~6%の精度向上により,異種データの分散学習における最先端性能を実現する。
論文 参考訳(メタデータ) (2023-05-08T15:48:53Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - Consensus Control for Decentralized Deep Learning [72.50487751271069]
ディープラーニングモデルの分散トレーニングは、ネットワーク上のデバイス上での学習と、大規模計算クラスタへの効率的なスケーリングを可能にする。
理論上、トレーニングコンセンサス距離が重要な量よりも低い場合、分散化されたトレーニングは集中的なトレーニングよりも早く収束することを示す。
私たちの経験的な洞察は、パフォーマンス低下を軽減するために、より分散化されたトレーニングスキームの原則設計を可能にします。
論文 参考訳(メタデータ) (2021-02-09T13:58:33Z) - Adaptive Serverless Learning [114.36410688552579]
本研究では,データから学習率を動的に計算できる適応型分散学習手法を提案する。
提案アルゴリズムは, 作業者数に対して線形高速化が可能であることを示す。
通信効率のオーバーヘッドを低減するため,通信効率のよい分散訓練手法を提案する。
論文 参考訳(メタデータ) (2020-08-24T13:23:02Z) - Quantized Decentralized Stochastic Learning over Directed Graphs [54.005946490293496]
有向グラフ上で通信する計算ノード間でデータポイントが分散される分散学習問題を考える。
モデルのサイズが大きくなるにつれて、分散学習は、各ノードが隣人にメッセージ(モデル更新)を送信することによる通信負荷の大きなボトルネックに直面します。
本稿では,分散コンセンサス最適化におけるプッシュサムアルゴリズムに基づく有向グラフ上の量子化分散学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-23T18:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。