論文の概要: On the Optimal Batch Size for Byzantine-Robust Distributed Learning
- arxiv url: http://arxiv.org/abs/2305.13856v1
- Date: Tue, 23 May 2023 09:23:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 17:25:38.250438
- Title: On the Optimal Batch Size for Byzantine-Robust Distributed Learning
- Title(参考訳): Byzantine-Robust分散学習のための最適バッチサイズについて
- Authors: Yi-Rui Yang, Chang-Wei Shi, Wu-Jun Li
- Abstract要約: Byzantine-Robust Distributed Learning (BRDL)では、コンピュータ装置が異常な故障や悪意のある攻撃のために異常に振る舞う可能性がある。
既存のBRDL法は、計算のばらつきが大きいため、モデルの精度が大幅に低下する。
正規化運動量を持つByzantine-Robust勾配勾配勾配法という新しいBRDL法を提案する。
- 参考スコア(独自算出の注目度): 25.642765724151833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Byzantine-robust distributed learning (BRDL), in which computing devices are
likely to behave abnormally due to accidental failures or malicious attacks,
has recently become a hot research topic. However, even in the independent and
identically distributed (i.i.d.) case, existing BRDL methods will suffer from a
significant drop on model accuracy due to the large variance of stochastic
gradients. Increasing batch sizes is a simple yet effective way to reduce the
variance. However, when the total number of gradient computation is fixed, a
too-large batch size will lead to a too-small iteration number (update number),
which may also degrade the model accuracy. In view of this challenge, we mainly
study the optimal batch size when the total number of gradient computation is
fixed in this work. In particular, we theoretically and empirically show that
when the total number of gradient computation is fixed, the optimal batch size
in BRDL increases with the fraction of Byzantine workers. Therefore, compared
to the case without attacks, the batch size should be set larger when under
Byzantine attacks. However, for existing BRDL methods, large batch sizes will
lead to a drop on model accuracy, even if there is no Byzantine attack. To deal
with this problem, we propose a novel BRDL method, called Byzantine-robust
stochastic gradient descent with normalized momentum (ByzSGDnm), which can
alleviate the drop on model accuracy in large-batch cases. Moreover, we
theoretically prove the convergence of ByzSGDnm for general non-convex cases
under Byzantine attacks. Empirical results show that ByzSGDnm has a comparable
performance to existing BRDL methods under bit-flipping failure, but can
outperform existing BRDL methods under deliberately crafted attacks.
- Abstract(参考訳): Byzantine-Robust Distributed Learning (BRDL) は、コンピュータ機器が事故や悪意のある攻撃によって異常に振る舞う可能性が高く、近年ホットな研究トピックとなっている。
しかし、独立かつ同一に分布している場合(すなわち、d)においても、既存のBRDL法は確率勾配の大きなばらつきによりモデルの精度が著しく低下する。
バッチサイズの増加は、分散を減らすためのシンプルかつ効果的な方法である。
しかし、勾配計算の総数が固定されると、大きすぎるバッチサイズがあまりに小さな反復数(更新数)につながるため、モデル精度も低下する可能性がある。
この課題を踏まえて,本研究における勾配計算の総数を固定した場合の最適バッチサイズについて主に検討する。
特に,グラデーション計算の総数を固定すると,ビザンチン作業者の分数でbrdlの最適バッチサイズが増加することを理論的に実証的に示す。
したがって、攻撃のない場合と比較して、ビザンチン攻撃時にバッチサイズを大きく設定する必要がある。
しかし、既存のBRDLメソッドでは、大規模なバッチサイズは、たとえビザンチン攻撃がなくても、モデルの精度を低下させる。
この問題に対処するため,本手法はビザンチン-ロブスト確率勾配降下法 (bizantine-robust stochastic gradient descent with normalized momentum (byzsgdnm) と呼ばれる,大規模バッチの場合のモデルの精度低下を緩和する新しいbrdl法を提案する。
さらに、ビザンチン攻撃下での一般非凸ケースに対するByzSGDnmの収束を理論的に証明する。
実験の結果,byzsgdnmはビットフリッピング障害時の既存のbrdl法に匹敵する性能を持つが,故意に作成した攻撃では既存のbrdl法に勝ることがわかった。
関連論文リスト
- Batch and match: black-box variational inference with a score-based divergence [26.873037094654826]
スコアに基づく発散に基づくブラックボックス変分推論(BBVI)の代替手法としてバッチ・アンド・マッチ(BaM)を提案する。
ELBO に基づく BBVI の先行実装よりもBaM の収束度が低いことを示す。
論文 参考訳(メタデータ) (2024-02-22T18:20:22Z) - Batches Stabilize the Minimum Norm Risk in High Dimensional Overparameterized Linear Regression [12.443289202402761]
最小ノルム過パラメータ線形回帰モデルのレンズによるバッチ分割の利点を示す。
最適なバッチサイズを特徴付け、ノイズレベルに逆比例することを示す。
また,Weiner係数と同等の係数によるバッチ最小ノルム推定器の縮小がさらに安定化し,全ての設定において2次リスクを低くすることを示した。
論文 参考訳(メタデータ) (2023-06-14T11:02:08Z) - Byzantine-Robust Loopless Stochastic Variance-Reduced Gradient [0.0]
ビザンチン-ロバストループレス変動低減勾配法(BR-LSVRG)を提案する。
強凸の場合、新しい方法の非漸近収束保証を導出する。
論文 参考訳(メタデータ) (2023-03-08T13:20:49Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - Transferable Calibration with Lower Bias and Variance in Domain
Adaptation [139.4332115349543]
ドメイン適応(DA)は、ラベル付きソースドメインからラベル付きターゲットドメインへの学習マシンの転送を可能にする。
DAモデルの予測的不確実性を推定する方法は、安全クリティカルなシナリオにおける意思決定に不可欠である。
TransCalは既存のDAメソッドの校正に簡単に適用できる。
論文 参考訳(メタデータ) (2020-07-16T11:09:36Z) - On the Generalization Benefit of Noise in Stochastic Gradient Descent [34.127525925676416]
ディープニューラルネットワークにおけるバッチ勾配勾配よりも、ミニバッチ勾配勾配がより一般化できるという主張は、長年にわたって議論されてきた。
小さいバッチサイズや中程度のバッチサイズは、テストセットにおいて非常に大きなバッチよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-06-26T16:18:54Z) - Likelihood-Free Inference with Deep Gaussian Processes [70.74203794847344]
サーロゲートモデルは、シミュレータ評価の回数を減らすために、可能性のない推論に成功している。
本稿では,より不規則な対象分布を扱えるディープガウス過程(DGP)サロゲートモデルを提案する。
本実験は,DGPがマルチモーダル分布を持つ目的関数上でGPよりも優れ,単調な場合と同等の性能を維持できることを示す。
論文 参考訳(メタデータ) (2020-06-18T14:24:05Z) - Federated Variance-Reduced Stochastic Gradient Descent with Robustness
to Byzantine Attacks [74.36161581953658]
本稿では、悪質なビザンツ攻撃が存在する場合のネットワーク上での学習のための分散有限サム最適化について論じる。
このような攻撃に対処するため、これまでのほとんどのレジリエントなアプローチは、勾配降下(SGD)と異なる頑健な集約ルールを組み合わせている。
本研究は,ネットワーク上の有限サム最適化を含むタスクを学習するための,ビザンチン攻撃耐性分散(Byrd-)SAGAアプローチを提案する。
論文 参考訳(メタデータ) (2019-12-29T19:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。