Fugu-MT 論文翻訳(概要): Training Recommender Systems at Scale: Communication-Efficient Model and Data Parallelism

論文の概要: Training Recommender Systems at Scale: Communication-Efficient Model and Data Parallelism

arxiv url: http://arxiv.org/abs/2010.08899v2
Date: Fri, 21 May 2021 08:23:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-06 04:05:02.547232
Title: Training Recommender Systems at Scale: Communication-Efficient Model and Data Parallelism
Title（参考訳）: 大規模レコメンダシステムの訓練:通信効率の良いモデルとデータ並列性
Authors: Vipul Gupta, Dhruv Choudhary, Ping Tak Peter Tang, Xiaohan Wei, Xing Wang, Yuzhen Huang, Arun Kejariwal, Kannan Ramchandran, Michael W. Mahoney
Abstract要約: 通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。 DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
参考スコア（独自算出の注目度）: 56.78673028601739
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we consider hybrid parallelism -- a paradigm that employs both Data Parallelism (DP) and Model Parallelism (MP) -- to scale distributed training of large recommendation models. We propose a compression framework called Dynamic Communication Thresholding (DCT) for communication-efficient hybrid training. DCT filters the entities to be communicated across the network through a simple hard-thresholding function, allowing only the most relevant information to pass through. For communication efficient DP, DCT compresses the parameter gradients sent to the parameter server during model synchronization. The threshold is updated only once every few thousand iterations to reduce the computational overhead of compression. For communication efficient MP, DCT incorporates a novel technique to compress the activations and gradients sent across the network during the forward and backward propagation, respectively. This is done by identifying and updating only the most relevant neurons of the neural network for each training sample in the data. We evaluate DCT on publicly available natural language processing and recommender models and datasets, as well as recommendation systems used in production at Facebook. DCT reduces communication by at least $100\times$ and $20\times$ during DP and MP, respectively. The algorithm has been deployed in production, and it improves end-to-end training time for a state-of-the-art industrial recommender model by 37\%, without any loss in performance.
Abstract（参考訳）: 本稿では,大規模レコメンデーションモデルの分散トレーニングをスケールするために,データ並列性(dp)とモデル並列性(mp)の両方を用いるハイブリッド並列性(hybrid parallelism)を検討する。通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。 dctは、ネットワーク全体で通信されるエンティティを単純なハードスレッディング機能を通じてフィルタリングし、最も関連する情報のみを通過させる。通信効率の良いDPのために、DCTはモデル同期中にパラメータサーバに送信されるパラメータ勾配を圧縮する。しきい値は、圧縮の計算オーバーヘッドを減らすために、数千回ごとに1回だけ更新される。通信効率のよいMPのために、DCTは、それぞれ前方と後方の伝搬中にネットワークに送られるアクティベーションと勾配を圧縮する新しい手法を取り入れている。これは、データ内のトレーニングサンプル毎にニューラルネットワークの最も関連性の高いニューロンのみを特定し、更新することで行われる。我々は、公開可能な自然言語処理とレコメンダモデルとデータセット、およびFacebookのプロダクションで使用されるレコメンデーションシステムに基づいてDCTを評価する。 DCTは、それぞれDPとMPの間に、少なくとも100\times$と20\times$の通信を削減します。このアルゴリズムは本番環境にデプロイされており、パフォーマンスを損なうことなく、最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を37 %改善している。

関連論文リスト

Protocol Models: Scaling Decentralized Training with Communication-Efficient Model Parallelism [59.79227116582264]
モデルスケーリングはディープラーニングの大幅な進歩につながったが、これらのモデルを分散環境でトレーニングすることは依然として難しい。本研究では,前処理と後処理の両方を圧縮し,最大99%の圧縮が可能となる新しい圧縮アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-02T02:19:22Z)
Sparsity-Aware Communication for Distributed Graph Neural Network Training [0.41942958779358674]
グラフニューラルネットワーク(GNN)は、グラフデータの埋め込みや分類を学ぶための計算効率の良い手法である。 GNNトレーニングは計算強度が低く、通信コストがスケーラビリティのボトルネックとなる。我々は3つの新しいアプローチでGNN訓練における通信ボトルネックに対処する空間性認識アルゴリズムを開発した。
論文参考訳（メタデータ） (2025-04-07T01:53:14Z)
Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文参考訳（メタデータ） (2024-03-17T13:06:29Z)
Communication-Efficient Federated Learning through Adaptive Weight Clustering and Server-Side Distillation [10.541541376305245]
Federated Learning(FL)は、複数のデバイスにわたるディープニューラルネットワークの協調トレーニングのための有望なテクニックである。 FLは、トレーニング中に繰り返しサーバー・クライアント間の通信によって、過剰な通信コストによって妨げられる。本稿では,動的重みクラスタリングとサーバ側知識蒸留を組み合わせた新しいアプローチであるFedCompressを提案する。
論文参考訳（メタデータ） (2024-01-25T14:49:15Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文参考訳（メタデータ） (2023-06-16T17:59:51Z)
Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。圧縮アルゴリズムの3つの共通クラスを実装し,評価する。我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文参考訳（メタデータ） (2023-01-06T18:58:09Z)
Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文参考訳（メタデータ） (2022-11-16T21:55:05Z)
ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。 ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文参考訳（メタデータ） (2021-10-11T14:45:00Z)
Accelerating Distributed K-FAC with Smart Parallelism of Computing and Communication Tasks [13.552262050816616]
Kronecker-Factored Approximate Curvature (KFAC)は、深層モデルのトレーニングにおいて最も効率的な近似アルゴリズムの1つである。しかし、KFACでモデルをトレーニングするためにGPUクラスタを活用すると、大規模な計算が発生すると同時に、イテレーション毎に余分な通信が導入される。そこで我々は,D-KFACを提案する。
論文参考訳（メタデータ） (2021-07-14T08:01:07Z)
Sparse-Push: Communication- & Energy-Efficient Decentralized Distributed Learning over Directed & Time-Varying Graphs with non-IID Datasets [2.518955020930418]
Sparse-Pushはコミュニケーション効率の高い分散型トレーニングアルゴリズムである。提案アルゴリズムは,通信性能がわずか1%の466倍の低減を実現する。非IIDデータセットのケースにおいて,通信圧縮が性能を著しく低下させることを示す。
論文参考訳（メタデータ） (2021-02-10T19:41:11Z)
Coded Federated Learning [5.375775284252717]
フェデレートラーニング(Federated Learning)とは、クライアントデバイスに分散した分散データからグローバルモデルをトレーニングする手法である。この結果から,CFLでは,符号化されていない手法に比べて,大域的モデルを約4倍の速度で収束させることができることがわかった。
論文参考訳（メタデータ） (2020-02-21T23:06:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。