論文の概要: Echo-CGC: A Communication-Efficient Byzantine-tolerant Distributed
Machine Learning Algorithm in Single-Hop Radio Network
- arxiv url: http://arxiv.org/abs/2011.07447v1
- Date: Sun, 15 Nov 2020 04:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 07:48:53.882887
- Title: Echo-CGC: A Communication-Efficient Byzantine-tolerant Distributed
Machine Learning Algorithm in Single-Hop Radio Network
- Title(参考訳): Echo-CGC:シングルホップ無線ネットワークにおける通信効率の良いビザンチン耐性分散機械学習アルゴリズム
- Authors: Qinzi Zhang, Lewis Tseng
- Abstract要約: シングルホップ無線ネットワークにおけるビザンチン耐性DMLアルゴリズムの通信複雑性を低減することを目的としている。
Gupta と Vaidya が開発した CGC フィルタに着想を得て,勾配降下に基づくアルゴリズム Echo-CGC を提案する。
改良点を数値的に解析し,多数のノードにおいて,Echo-CGCは標準的な前提条件下での通信コストを80%削減することを示す。
- 参考スコア(独自算出の注目度): 4.29972694729078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we focus on a popular DML framework -- the parameter server
computation paradigm and iterative learning algorithms that proceed in rounds.
We aim to reduce the communication complexity of Byzantine-tolerant DML
algorithms in the single-hop radio network. Inspired by the CGC filter
developed by Gupta and Vaidya, PODC 2020, we propose a gradient descent-based
algorithm, Echo-CGC. Our main novelty is a mechanism to utilize the broadcast
properties of the radio network to avoid transmitting the raw gradients (full
$d$-dimensional vectors). In the radio network, each worker is able to overhear
previous gradients that were transmitted to the parameter server. Roughly
speaking, in Echo-CGC, if a worker "agrees" with a combination of prior
gradients, it will broadcast the "echo message" instead of the its raw local
gradient. The echo message contains a vector of coefficients (of size at most
$n$) and the ratio of the magnitude between two gradients (a float). In
comparison, the traditional approaches need to send $n$ local gradients in each
round, where each gradient is typically a vector in an ultra-high dimensional
space ($d\gg n$). The improvement on communication complexity of our algorithm
depends on multiple factors, including number of nodes, number of faulty
workers in an execution, and the cost function. We numerically analyze the
improvement, and show that with a large number of nodes, Echo-CGC reduces
$80\%$ of the communication under standard assumptions.
- Abstract(参考訳): 本稿では,パラメータサーバ計算のパラダイムであるDMLフレームワークと,ラウンドを継続する反復学習アルゴリズムに注目した。
シングルホップ無線ネットワークにおけるビザンチン耐性DMLアルゴリズムの通信複雑性を低減することを目的としている。
我々は, Gupta と Vaidya が開発した CGC フィルタ, PODC 2020 にヒントを得て,勾配降下に基づくアルゴリズム Echo-CGC を提案する。
我々の主な新規性は、無線ネットワークの放送特性を利用して生勾配(フル$d$次元ベクトル)を伝送しないメカニズムである。
無線ネットワークでは、各ワーカーはパラメータサーバに送信された以前の勾配をオーバーハーサルすることができる。
おおまかに言えば、Echo-CGCでは、作業者が事前の勾配と組み合わせて“アグリ”すると、生の局所勾配の代わりに“echo message”をブロードキャストする。
echoメッセージには、係数のベクトル(最大でn$)と、2つの勾配(フロート)間の大きさの比率が含まれている。
対照的に、従来のアプローチでは各ラウンドにn$の局所勾配を送る必要があり、各勾配は典型的には超高次元空間のベクトル(d\gg n$)である。
このアルゴリズムの通信複雑性の改善は、ノード数、実行中の障害のあるワーカー数、コスト関数など、複数の要因に依存する。
改良点を数値的に解析し,多数のノードにおいて,Echo-CGCは標準的な仮定で通信の80\%を削減できることを示す。
関連論文リスト
- Communication-Efficient Decentralized Federated Learning via One-Bit
Compressive Sensing [52.402550431781805]
分散連合学習(DFL)は、様々なアプリケーションにまたがる実用性によって人気を博している。
集中型バージョンと比較して、DFLの多数のノード間で共有モデルをトレーニングするのはより難しい。
我々は,iADM (iexact alternating direction method) の枠組みに基づく新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-08-31T12:22:40Z) - Low PAPR MIMO-OFDM Design Based on Convolutional Autoencoder [20.544993155126967]
ピーク対平均電力比(mathsfPAPR$)削減と波形設計のための新しい枠組みを提案する。
畳み込みオートコーダ(mathsfCAE$)アーキテクチャが提示される。
1つのトレーニングされたモデルが、幅広いSNRレベルにわたって、$mathsfPAPR$の削減、スペクトル設計、および$mathsfMIMO$の検出のタスクをカバーしていることを示す。
論文 参考訳(メタデータ) (2023-01-11T11:35:10Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - DADAO: Decoupled Accelerated Decentralized Asynchronous Optimization [0.0]
DADAOは、L$-smooth と $mu$-strongly convex 関数の和を最小化する最初の分散化、高速化、非同期化、プライマリ化、一階述語アルゴリズムである。
我々のアルゴリズムは、$mathcalO(nsqrtchisqrtfracLmulog(frac1epsilon)$ localと$mathcalO(nsqrtchisqrtfracLmulog()のみを必要とすることを示す。
論文 参考訳(メタデータ) (2022-07-26T08:47:54Z) - A Unified Framework for Implicit Sinkhorn Differentiation [58.56866763433335]
暗黙の微分によってシンクホーン層の解析勾配を求めるアルゴリズムを提案する。
特にGPUメモリなどのリソースが不足している場合には,計算効率が向上する。
論文 参考訳(メタデータ) (2022-05-13T14:45:31Z) - Learned Gradient Compression for Distributed Deep Learning [16.892546958602303]
高次元データを含む大規模なデータセットでディープニューラルネットワークをトレーニングするには、大量の計算が必要です。
この問題の解決策は、データ並列分散トレーニングであり、モデルが複数の計算ノードに複製され、データの異なるチャンクにアクセスできる。
しかしこのアプローチは、各イテレーションでノード間で共有する必要がある計算された勾配のため、高い通信速度とレイテンシを必要とする。
論文 参考訳(メタデータ) (2021-03-16T06:42:36Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - A Compressive Sensing Approach for Federated Learning over Massive MIMO
Communication Systems [82.2513703281725]
フェデレートラーニング(Federated Learning)は、無線デバイスとのコラボレーションによって、中央サーバでグローバルモデルをトレーニングするための、プライバシ保護のアプローチである。
本稿では,大規模マルチインプット多出力通信システム上でのフェデレーション学習のための圧縮センシング手法を提案する。
論文 参考訳(メタデータ) (2020-03-18T05:56:27Z) - Differentially Quantized Gradient Methods [53.3186247068836]
微分量子化グラディエントDescence (DQ-GD) が$maxsigma_mathrmGD, rhon 2-R$の線形収縮係数を得ることを示す。
あるクラス内のアルゴリズムは$maxsigma_mathrmGD, 2-R$よりも早く収束できない。
論文 参考訳(メタデータ) (2020-02-06T20:40:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。