Fugu-MT 論文翻訳(概要): A simplified convergence theory for Byzantine resilient stochastic gradient descent

論文の概要: A simplified convergence theory for Byzantine resilient stochastic gradient descent

arxiv url: http://arxiv.org/abs/2208.11879v1
Date: Thu, 25 Aug 2022 05:37:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-26 13:52:16.392706
Title: A simplified convergence theory for Byzantine resilient stochastic gradient descent
Title（参考訳）: ビザンチンレジリエント確率勾配勾配の簡易収束理論
Authors: Lindon Roberts, Edward Smyth
Abstract要約: 分散学習では、中央サーバは、ローカルデータサンプルを保持するノードが提供する更新に従ってモデルをトレーニングする。 1つ以上の悪意のあるサーバが存在する場合、勾配降下(SGD)のようなトレーニングモデルの標準アルゴリズムは収束しない。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In distributed learning, a central server trains a model according to updates provided by nodes holding local data samples. In the presence of one or more malicious servers sending incorrect information (a Byzantine adversary), standard algorithms for model training such as stochastic gradient descent (SGD) fail to converge. In this paper, we present a simplified convergence theory for the generic Byzantine Resilient SGD method originally proposed by Blanchard et al. [NeurIPS 2017]. Compared to the existing analysis, we shown convergence to a stationary point in expectation under standard assumptions on the (possibly nonconvex) objective function and flexible assumptions on the stochastic gradients.
Abstract（参考訳）: 分散学習では、中央サーバは、ローカルデータサンプルを保持するノードが提供する更新に従ってモデルをトレーニングする。不正な情報を送信する1つ以上の悪意のあるサーバ(ビザンティンの敵)が存在する場合、確率勾配降下(SGD)のようなモデルトレーニングのための標準的なアルゴリズムは収束しない。本稿では,ブランチャードらによって提唱されたByzantine Resilient SGD法に対する簡易収束理論を提案する。 2017年発売。既存の解析と比較すると、(おそらくは非凸な)目的関数の標準仮定と確率勾配の柔軟な仮定に基づいて、予想される定常点への収束を示した。

関連論文リスト

Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL [20.177871969184004]
チェーン・オブ・シント(CoT)推論は、モデルが中間的推論ステップを生成する必要がある潜在変数問題として形式化することができる。反復的な報酬ランクの微調整のような以前のアプローチは、難易度と収束挙動の変動を考慮しない。本稿では,計算予算制約下での勾配分散を最小限に抑えるために,プロンプト固有の動的サンプル割当戦略であるGVMRAFTを提案する。
論文参考訳（メタデータ） (2025-05-05T06:26:00Z)
A New Formulation of Lipschitz Constrained With Functional Gradient Learning for GANs [52.55025869932486]
本稿では,大規模データセット上でGAN(Generative Adversarial Networks)のトレーニングを行うための有望な代替手法を提案する。本稿では,GANの学習を安定させるために,Lipschitz-Constrained Functional Gradient GANs Learning (Li-CFG)法を提案する。判別器勾配のノルムを増大させることにより、潜在ベクトルの近傍サイズを小さくすることができることを示す。
論文参考訳（メタデータ） (2025-01-20T02:48:07Z)
Beyond Log-Concavity and Score Regularity: Improved Convergence Bounds for Score-Based Generative Models in W2-distance [0.0]
スコアベース生成モデル(SGM)における収束解析のための新しい枠組みを提案する。データ分布の弱い対数共振器は時間とともに対数共振器へと進化することを示す。本手法は, スコア関数とその正則性に対する厳密な正則性条件の必要性を回避するものである。
論文参考訳（メタデータ） (2025-01-04T14:33:27Z)
Topology-Aware Dynamic Reweighting for Distribution Shifts on Graph [24.44321658238713]
グラフニューラルネットワーク(GNN)は、ノード分類タスクに広く使用されているが、トレーニングやテストノードが異なるディストリビューションから来ると、一般化に失敗することが多い。トレーニング中にWasserstein空間の勾配流を通じて標本重量を動的に調整するTopology-Aware Dynamic Reweighting (TAR) フレームワークを導入する。フレームワークの優位性は、4つのグラフOODデータセットと3つのクラス不均衡ノード分類データセットの標準テストによって実証される。
論文参考訳（メタデータ） (2024-06-03T07:32:05Z)
Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文参考訳（メタデータ） (2024-05-29T01:32:17Z)
Taming Nonconvex Stochastic Mirror Descent with General Bregman Divergence [25.717501580080846]
本稿では、現代の非最適化設定における勾配フォワードミラー(SMD)の収束を再考する。トレーニングのために,線形ネットワーク問題に対する確率収束アルゴリズムを開発した。
論文参考訳（メタデータ） (2024-02-27T17:56:49Z)
Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文参考訳（メタデータ） (2023-10-20T12:45:12Z)
Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文参考訳（メタデータ） (2023-05-17T17:47:19Z)
Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文参考訳（メタデータ） (2023-04-27T06:27:37Z)
A Convergence Theory for Federated Average: Beyond Smoothness [28.074273047592065]
フェデレートラーニングにより、大量のエッジコンピューティングデバイスが、データ共有を併用せずにモデルを学習できるようになる。この設定における主要なアルゴリズムとして、ローカルデバイス上でGradient Descent(SGD)を並列に実行するFederated Average FedAvgが広く使用されている。本稿では,フェデレートラーニングに関する理論的収束研究について述べる。
論文参考訳（メタデータ） (2022-11-03T04:50:49Z)
Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文参考訳（メタデータ） (2022-11-02T16:39:42Z)
On the Convergence of Stochastic Extragradient for Bilinear Games with Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文参考訳（メタデータ） (2021-06-30T17:51:36Z)
A High Probability Analysis of Adaptive SGD with Momentum [22.9530287983179]
Gradient Descent(DSG)とその変種は、機械学習アプリケーションで最も使われているアルゴリズムである。モーメントを持つdelayedGrad の滑らかな非設定において、勾配が 0 になる確率を初めて示す。
論文参考訳（メタデータ） (2020-07-28T15:06:22Z)
Biased Stochastic First-Order Methods for Conditional Stochastic Optimization and Applications in Meta Learning [24.12941820827126]
条件最適化問題に対するバイアス勾配勾配勾配(BSGD)を提案する。下界解析により,BSGDは一般凸対象の非目的に対して改善できないことが示された。この特別な設定のために、下界にマッチするバイアスドスパイダーブースト (BSpiderBoost) と呼ばれる加速アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-25T10:57:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。