論文の概要: Byzantine-Robust Decentralized Stochastic Optimization with Stochastic
Gradient Noise-Independent Learning Error
- arxiv url: http://arxiv.org/abs/2308.05292v1
- Date: Thu, 10 Aug 2023 02:14:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 13:57:17.550988
- Title: Byzantine-Robust Decentralized Stochastic Optimization with Stochastic
Gradient Noise-Independent Learning Error
- Title(参考訳): 確率勾配雑音非依存学習誤差を用いたビザンチンロバスト分散確率最適化
- Authors: Jie Peng, Weiyu Li, Qing Ling
- Abstract要約: 分散ネットワーク上でのビザンチン-ロバスト最適化について検討し、各エージェントが近隣のエージェントと定期的に通信して局所モデルを交換し、勾配降下(SGD)により独自の局所モデルを更新する。
このような手法の性能は、最適化プロセス中に逆向きに実行される未知数のビザンチンエージェントに影響される。
- 参考スコア(独自算出の注目度): 25.15075119957447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies Byzantine-robust stochastic optimization over a
decentralized network, where every agent periodically communicates with its
neighbors to exchange local models, and then updates its own local model by
stochastic gradient descent (SGD). The performance of such a method is affected
by an unknown number of Byzantine agents, which conduct adversarially during
the optimization process. To the best of our knowledge, there is no existing
work that simultaneously achieves a linear convergence speed and a small
learning error. We observe that the learning error is largely dependent on the
intrinsic stochastic gradient noise. Motivated by this observation, we
introduce two variance reduction methods, stochastic average gradient algorithm
(SAGA) and loopless stochastic variance-reduced gradient (LSVRG), to
Byzantine-robust decentralized stochastic optimization for eliminating the
negative effect of the stochastic gradient noise. The two resulting methods,
BRAVO-SAGA and BRAVO-LSVRG, enjoy both linear convergence speeds and stochastic
gradient noise-independent learning errors. Such learning errors are optimal
for a class of methods based on total variation (TV)-norm regularization and
stochastic subgradient update. We conduct extensive numerical experiments to
demonstrate their effectiveness under various Byzantine attacks.
- Abstract(参考訳): 本稿では,Byzantine-Robust 確率的最適化を分散ネットワーク上で検討し,各エージェントが定期的に近隣のエージェントと通信して局所モデルを交換し,その局所モデルを確率勾配勾配(SGD)により更新する。
このような手法の性能は、最適化プロセス中に逆向きに実行される未知数のビザンチンエージェントに影響される。
私たちの知る限りでは、線形収束速度と学習誤差を両立させるような既存の作業は存在しない。
学習誤差は本質的な確率的勾配ノイズに大きく依存する。
本研究は, 確率勾配法 (SAGA) とループレス確率勾配法 (LSVRG) の2つの分散低減法と, 確率勾配雑音の負の効果を排除するために, ビザンチン・ロバスト分散確率最適化を導入する。
2つの手法、BRAVO-SAGAとBRAVO-LSVRGは線形収束速度と確率勾配雑音非依存学習誤差の両方を享受する。
このような学習誤差は、全変動(tv)ノルム正則化と確率的劣次更新に基づく方法のクラスに最適である。
我々は,様々なビザンチン攻撃における有効性を示すために,広範囲な数値実験を行った。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - The ODE Method for Stochastic Approximation and Reinforcement Learning with Markovian Noise [17.493808856903303]
近似アルゴリズムを解析する根本的な課題は、その安定性を確立することである。
本稿では,マルティンゲール差分雑音設定からマルコフ雑音設定へ有界な安定に対するボルカー・メイン定理を拡張する。
我々の分析の中心は、少数の関数の変化の減少率であり、これは多量の強い法則の形式とよく用いられるV4 Lynovドリフト条件の両方によって示唆される。
論文 参考訳(メタデータ) (2024-01-15T17:20:17Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Accelerated Almost-Sure Convergence Rates for Nonconvex Stochastic
Gradient Descent using Stochastic Learning Rates [0.0]
本稿では、グラディエント・ダイアンスの勾配空間収束率のほぼ全周収束率を用いて、大規模最適化問題を解く。
特に、その学習速度は乗算学習率を備えている。
論文 参考訳(メタデータ) (2021-10-25T04:27:35Z) - A Two-Time-Scale Stochastic Optimization Framework with Applications in
Control and Reinforcement Learning [22.07834608976826]
本研究では, 時間変化勾配から試料が生成する問題を解くための2段階勾配法について検討した。
我々は$mathcal(k-2/3O)$の収束が達成されていることを示す。
論文 参考訳(メタデータ) (2021-09-29T23:15:23Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - BROADCAST: Reducing Both Stochastic and Compression Noise to Robustify
Communication-Efficient Federated Learning [24.016538592246377]
ローカル勾配を収集するためにワーカーとマスターノード間のコミュニケーションは、大規模学習システムにおける重要なボトルネックである。
本研究では、ビザンチン労働者からの攻撃が任意に悪意を持つことができる圧縮によるビザンチン・ロバスト連合学習の問題を調査する。
そこで本研究では, 雑音と圧縮ノイズを共同で低減し, ビザンチンロバスト性を改善することを提案する。
論文 参考訳(メタデータ) (2021-04-14T08:16:03Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z) - Robust Learning Rate Selection for Stochastic Optimization via Splitting
Diagnostic [5.395127324484869]
SplitSGDは最適化のための新しい動的学習スケジュールである。
本手法は,対象関数の局所的幾何への適応性を向上するために学習率を低下させる。
基本的には標準のSGDよりも計算コストがかかるわけではない。
論文 参考訳(メタデータ) (2019-10-18T19:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。