論文の概要: A simplified convergence theory for Byzantine resilient stochastic
gradient descent
- arxiv url: http://arxiv.org/abs/2208.11879v1
- Date: Thu, 25 Aug 2022 05:37:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 13:52:16.392706
- Title: A simplified convergence theory for Byzantine resilient stochastic
gradient descent
- Title(参考訳): ビザンチンレジリエント確率勾配勾配の簡易収束理論
- Authors: Lindon Roberts, Edward Smyth
- Abstract要約: 分散学習では、中央サーバは、ローカルデータサンプルを保持するノードが提供する更新に従ってモデルをトレーニングする。
1つ以上の悪意のあるサーバが存在する場合、勾配降下(SGD)のようなトレーニングモデルの標準アルゴリズムは収束しない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In distributed learning, a central server trains a model according to updates
provided by nodes holding local data samples. In the presence of one or more
malicious servers sending incorrect information (a Byzantine adversary),
standard algorithms for model training such as stochastic gradient descent
(SGD) fail to converge. In this paper, we present a simplified convergence
theory for the generic Byzantine Resilient SGD method originally proposed by
Blanchard et al. [NeurIPS 2017]. Compared to the existing analysis, we shown
convergence to a stationary point in expectation under standard assumptions on
the (possibly nonconvex) objective function and flexible assumptions on the
stochastic gradients.
- Abstract(参考訳): 分散学習では、中央サーバは、ローカルデータサンプルを保持するノードが提供する更新に従ってモデルをトレーニングする。
不正な情報を送信する1つ以上の悪意のあるサーバ(ビザンティンの敵)が存在する場合、確率勾配降下(SGD)のようなモデルトレーニングのための標準的なアルゴリズムは収束しない。
本稿では,ブランチャードらによって提唱されたByzantine Resilient SGD法に対する簡易収束理論を提案する。
2017年発売。
既存の解析と比較すると、(おそらくは非凸な)目的関数の標準仮定と確率勾配の柔軟な仮定に基づいて、予想される定常点への収束を示した。
関連論文リスト
- Topology-Aware Dynamic Reweighting for Distribution Shifts on Graph [24.44321658238713]
グラフニューラルネットワーク(GNN)は、ノード分類タスクに広く使用されているが、トレーニングやテストノードが異なるディストリビューションから来ると、一般化に失敗することが多い。
トレーニング中にWasserstein空間の勾配流を通じて標本重量を動的に調整するTopology-Aware Dynamic Reweighting (TAR) フレームワークを導入する。
フレームワークの優位性は、4つのグラフOODデータセットと3つのクラス不均衡ノード分類データセットの標準テストによって実証される。
論文 参考訳(メタデータ) (2024-06-03T07:32:05Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Taming Nonconvex Stochastic Mirror Descent with General Bregman
Divergence [25.717501580080846]
本稿では、現代の非最適化設定における勾配フォワードミラー(SMD)の収束を再考する。
トレーニングのために,線形ネットワーク問題に対する確率収束アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-27T17:56:49Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - A Convergence Theory for Federated Average: Beyond Smoothness [28.074273047592065]
フェデレートラーニングにより、大量のエッジコンピューティングデバイスが、データ共有を併用せずにモデルを学習できるようになる。
この設定における主要なアルゴリズムとして、ローカルデバイス上でGradient Descent(SGD)を並列に実行するFederated Average FedAvgが広く使用されている。
本稿では,フェデレートラーニングに関する理論的収束研究について述べる。
論文 参考訳(メタデータ) (2022-11-03T04:50:49Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - A High Probability Analysis of Adaptive SGD with Momentum [22.9530287983179]
Gradient Descent(DSG)とその変種は、機械学習アプリケーションで最も使われているアルゴリズムである。
モーメントを持つdelayedGrad の滑らかな非設定において、勾配が 0 になる確率を初めて示す。
論文 参考訳(メタデータ) (2020-07-28T15:06:22Z) - Biased Stochastic First-Order Methods for Conditional Stochastic Optimization and Applications in Meta Learning [24.12941820827126]
条件最適化問題に対するバイアス勾配勾配勾配(BSGD)を提案する。
下界解析により,BSGDは一般凸対象の非目的に対して改善できないことが示された。
この特別な設定のために、下界にマッチするバイアスドスパイダーブースト (BSpiderBoost) と呼ばれる加速アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-25T10:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。