論文の概要: GBA: A Tuning-free Approach to Switch between Synchronous and
Asynchronous Training for Recommendation Model
- arxiv url: http://arxiv.org/abs/2205.11048v1
- Date: Mon, 23 May 2022 05:22:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 20:13:56.822672
- Title: GBA: A Tuning-free Approach to Switch between Synchronous and
Asynchronous Training for Recommendation Model
- Title(参考訳): gba:レコメンデーションモデルのための同期と非同期のトレーニングを切り替えるチューニングフリーアプローチ
- Authors: Wenbo Su, Yuanxing Zhang, Yufeng Cai, Kaixu Ren, Pengjie Wang, Huimin
Yi, Yue Song, Jing Chen, Hongbo Deng, Jian Xu, Lin Qu, Bo zheng
- Abstract要約: パラメータサーバ(PS)上のグローバルバッチ勾配集約(GBA)を提案する。
トークン制御プロセスは、勾配を組み立て、厳密な安定度で勾配を減衰させる。
3つの産業規模のレコメンデーション・タスクの実験から、GBAはスイッチングのための効果的なチューニング不要なアプローチであることが示された。
- 参考スコア(独自算出の注目度): 19.65557684234458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-concurrency asynchronous training upon parameter server (PS)
architecture and high-performance synchronous training upon all-reduce (AR)
architecture are the most commonly deployed distributed training modes for
recommender systems. Although the synchronous AR training is designed to have
higher training efficiency, the asynchronous PS training would be a better
choice on training speed when there are stragglers (slow workers) in the shared
cluster, especially under limited computing resources. To take full advantages
of these two training modes, an ideal way is to switch between them upon the
cluster status. We find two obstacles to a tuning-free approach: the different
distribution of the gradient values and the stale gradients from the
stragglers. In this paper, we propose Global Batch gradients Aggregation (GBA)
over PS, which aggregates and applies gradients with the same global batch size
as the synchronous training. A token-control process is implemented to assemble
the gradients and decay the gradients with severe staleness. We provide the
convergence analysis to demonstrate the robustness of GBA over the
recommendation models against the gradient staleness. Experiments on three
industrial-scale recommendation tasks show that GBA is an effective tuning-free
approach for switching. Compared to the state-of-the-art derived asynchronous
training, GBA achieves up to 0.2% improvement on the AUC metric, which is
significant for the recommendation models. Meanwhile, under the strained
hardware resource, GBA speeds up at least 2.4x compared to the synchronous
training.
- Abstract(参考訳): パラメータサーバ(PS)アーキテクチャ上での高速非同期トレーニングとオールリデュース(AR)アーキテクチャ上での高性能同期トレーニングは、リコメンダシステムにおいて最も一般的な分散トレーニングモードである。
同期ARトレーニングは、より高いトレーニング効率を持つように設計されているが、特に限られたコンピューティングリソースの下で、共有クラスタにストラグラー(スローワーカー)が存在する場合、非同期PSトレーニングは、トレーニング速度においてより良い選択となるだろう。
これら2つのトレーニングモードの利点を最大限に活用するには、クラスタの状態に応じてそれらを切り替えるのが理想的な方法だ。
チューニング不要なアプローチには,勾配値の異なる分布と,ストラグラーからの安定勾配の2つの障害がある。
本稿では,ps上でのグローバルバッチ勾配集約(gba)を提案し,同期トレーニングと同じグローバルバッチサイズの勾配を集約して適用する。
トークン制御プロセスは、勾配を組み立て、厳密な安定度で勾配を減衰させる。
本稿では,GBAの勾配安定度に対する推奨モデルに対するロバスト性を示す収束解析を提案する。
3つの産業規模のレコメンデーション・タスクの実験から、GBAはスイッチングのための効果的なチューニング不要なアプローチであることが示された。
最先端の非同期トレーニングと比較すると、GBAはAUCメトリックの最大0.2%の改善を実現している。
一方、歪んだハードウェアリソースの下では、同期トレーニングと比較して、GBAは少なくとも2.4倍スピードアップする。
関連論文リスト
- Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Accelerating Distributed ML Training via Selective Synchronization [0.0]
textttSelSyncは、DNNトレーニングの実践的で低オーバーヘッドな方法であり、各ステップでコミュニケーションを発生または回避することを動的に選択する。
トレーニング時間を最大14$times$まで短縮しながら,BSPと同等あるいはより優れた精度に収束する。
論文 参考訳(メタデータ) (2023-07-16T05:28:59Z) - TimelyFL: Heterogeneity-aware Asynchronous Federated Learning with
Adaptive Partial Training [17.84692242938424]
TimelyFLは、適応的な部分的トレーニングを備えた、異種対応の非同期フェデレートラーニングフレームワークである。
我々は、TimelyFLが参加率を21.13%改善し、収束率を1.28倍から2.89倍向上させ、テスト精度を6.25%向上させることを示した。
論文 参考訳(メタデータ) (2023-04-14T06:26:08Z) - Stochastic Coded Federated Learning: Theoretical Analysis and Incentive
Mechanism Design [18.675244280002428]
我々は、コード化されたコンピューティング技術を活用する新しいFLフレームワーク、コード付きフェデレーションラーニング(SCFL)を提案する。
SCFLでは、各エッジデバイスがプライバシを保存するコード化されたデータセットをサーバにアップロードする。
SCFLは、与えられた時間内でより良いモデルを学び、ベースライン方式よりも優れたプライバシーとパフォーマンスのトレードオフを実現する。
論文 参考訳(メタデータ) (2022-11-08T09:58:36Z) - Semi-Synchronous Personalized Federated Learning over Mobile Edge
Networks [88.50555581186799]
我々は,モバイルエッジネットワーク上での半同期パーソナライズフェデレーション(PerFedS$2$)と呼ばれる半同期PFLアルゴリズムを提案する。
我々は、グローバルラウンド当たりの参加者数とラウンド数の観点から、PerFedS2の収束率の上限を導出する。
PerFedS2はトレーニング時間を節約し、トレーニング損失の収束を保証する。
論文 参考訳(メタデータ) (2022-09-27T02:12:43Z) - Sync-Switch: Hybrid Parameter Synchronization for Distributed Deep
Learning [10.196574441542646]
Gradient Descent(SGD)は、分散クラスタでディープニューラルネットワークをトレーニングする事実上の方法となっている。
トレーニングスループットとモデルの精度を決定する上で重要な要因はパラメータ同期プロトコルの選択である。
本稿では、BSPとASP.NETの両方の利点を利用するハイブリッド同期アプローチを設計する。
論文 参考訳(メタデータ) (2021-04-16T20:49:28Z) - High-Throughput Synchronous Deep RL [132.43861715707905]
HTS-RL(High-Throughput Synchronous Deep Reinforcement Learning)の提案
私たちは同時に学習とロールアウトを行い、古いポリシーを避けるシステム設計を考案します。
我々は,アタリゲームとGoogle Research Football環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2020-12-17T18:59:01Z) - An Efficient Asynchronous Method for Integrating Evolutionary and
Gradient-based Policy Search [76.73477450555046]
本稿では、ESの並列効率を最大化し、ポリシー勾配法と統合する非同期進化戦略強化学習(AES-RL)を提案する。
具体的には、(1)ESとDRLを非同期にマージする新しいフレームワークを提案し、2)非同期、ES、DRLのすべての利点を利用できる様々な非同期更新方法を提案する。
論文 参考訳(メタデータ) (2020-12-10T02:30:48Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - Adaptive Braking for Mitigating Gradient Delay [0.8602553195689513]
適応ブレーキ(Adaptive Braking)は、運動量に基づく勾配の修正であり、勾配遅延の影響を緩和する。
本研究では,SGD 上の AB を運動量で適用することにより,CIFAR-10 と ImageNet-1k 上の ResNet を最終テスト精度で最小限の遅延でトレーニングできることを示す。
論文 参考訳(メタデータ) (2020-07-02T21:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。