論文の概要: Distributed Learning based on 1-Bit Gradient Coding in the Presence of Stragglers
- arxiv url: http://arxiv.org/abs/2403.14716v1
- Date: Tue, 19 Mar 2024 06:48:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 21:41:26.742591
- Title: Distributed Learning based on 1-Bit Gradient Coding in the Presence of Stragglers
- Title(参考訳): ストラグラー存在下での1ビット勾配符号化に基づく分散学習
- Authors: Chengxi Li, Mikael Skoglund,
- Abstract要約: ストラグラーの存在下での勾配学習の問題点を考察する。
1ビット勾配符号化(1ビットGCDL)に基づく新しいDL法を提案する。
- 参考スコア(独自算出の注目度): 27.253728528979572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers the problem of distributed learning (DL) in the presence of stragglers. For this problem, DL methods based on gradient coding have been widely investigated, which redundantly distribute the training data to the workers to guarantee convergence when some workers are stragglers. However, these methods require the workers to transmit real-valued vectors during the process of learning, which induces very high communication burden. To overcome this drawback, we propose a novel DL method based on 1-bit gradient coding (1-bit GCDL), where 1-bit data encoded from the locally computed gradients are transmitted by the workers to reduce the communication overhead. We theoretically provide the convergence guarantees of the proposed method for both the convex loss functions and nonconvex loss functions. It is shown empirically that 1-bit GC-DL outperforms the baseline methods, which attains better learning performance under the same communication overhead.
- Abstract(参考訳): 本稿では,トラグラーの存在下での分散学習(DL)の問題について考察する。
この問題に対して、勾配符号化に基づくDL手法が広く研究されており、労働者がストラグラーである場合の収束を保証するために、トレーニングデータを冗長に労働者に配布している。
しかし、これらの手法では、学習中に実数値ベクトルを送信する必要があるため、非常に高い通信負担が生じる。
この欠点を克服するために,1ビット勾配符号化(1ビットGCDL)に基づく新しいDL手法を提案する。
理論的には、凸損失関数と非凸損失関数の両方に対する提案手法の収束保証を提供する。
1ビットのGC-DLはベースライン法よりも優れており、同じ通信オーバヘッド下での学習性能が向上する。
関連論文リスト
- Gradient Coding in Decentralized Learning for Evading Stragglers [27.253728528979572]
勾配符号化(GOCO)を用いた新しいゴシップ型分散学習法を提案する。
ストラグラーの負の影響を避けるため、パラメータベクトルは勾配符号化の枠組みに基づいて符号化された勾配を用いて局所的に更新される。
強い凸損失関数に対するGOCOの収束性能を解析する。
論文 参考訳(メタデータ) (2024-02-06T17:49:02Z) - Clip21: Error Feedback for Gradient Clipping [8.979288425347702]
我々はClip21を設計し、分散メソッドに対する最初の有効で実用的なフィードバックメカニズムを設計する。
提案手法は, 競合手法よりも高速に収束する。
論文 参考訳(メタデータ) (2023-05-30T10:41:42Z) - Magnitude Matters: Fixing SIGNSGD Through Magnitude-Aware Sparsification
in the Presence of Data Heterogeneity [60.791736094073]
通信オーバーヘッドは、ディープニューラルネットワークの分散トレーニングにおいて、大きなボトルネックのひとつになっています。
本稿では,SIGNSGDの非収束問題に対処する等級化方式を提案する。
提案手法は,Fashion-MNIST, CIFAR-10, CIFAR-100データセットを用いて検証した。
論文 参考訳(メタデータ) (2023-02-19T17:42:35Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - TCT: Convexifying Federated Learning using Bootstrapped Neural Tangent
Kernels [141.29156234353133]
最先端の凸学習手法は、クライアントが異なるデータ分布を持つ場合、集中型よりもはるかにパフォーマンスが劣る。
我々は、この格差は、非NISTityが提示した課題に大きく起因していることを示す。
本稿では,Train-Convexify Neural Network (TCT) 手法を提案する。
論文 参考訳(メタデータ) (2022-07-13T16:58:22Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - Distributed Sparse SGD with Majority Voting [5.32836690371986]
分散学習のための分散コミュニケーション戦略として,多数決に基づく疎間コミュニケーション戦略を導入する。
テスト精度を損なうことなく,最大x4000圧縮を達成可能であることを示す。
論文 参考訳(メタデータ) (2020-11-12T17:06:36Z) - A Distributed Training Algorithm of Generative Adversarial Networks with
Quantized Gradients [8.202072658184166]
本稿では,量子化勾配を用いた分散GAN学習アルゴリズムDQGANを提案する。
この新しい方法は、OMDアルゴリズムと呼ばれる特定の単一マシンアルゴリズムに基づいてGANを訓練し、一般的な$delta$-approximate圧縮器を満たす任意の勾配圧縮手法に適用できる。
理論的には、DQGANアルゴリズムの1次定常点への非漸近収束を確立し、提案アルゴリズムが線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2020-10-26T06:06:43Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。