論文の概要: SGD with Clipping is Secretly Estimating the Median Gradient
- arxiv url: http://arxiv.org/abs/2402.12828v1
- Date: Tue, 20 Feb 2024 08:54:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 16:06:32.471940
- Title: SGD with Clipping is Secretly Estimating the Median Gradient
- Title(参考訳): クリックするSGDは、メディアグラディエントを秘かに推定する
- Authors: Fabian Schaipp, Guillaume Garrigos, Umut Simsekli, Robert Gower
- Abstract要約: 劣化ノードを用いた分散学習,トレーニングデータに大きな外れ値が存在すること,プライバシ制約下での学習,あるいはアルゴリズム自体のダイナミクスによるヘビーテールノイズなどについて検討する。
まず,サンプル間の中央勾配を計算し,重み付き状態依存雑音下でも収束できることを示す。
本稿では,反復の中央値勾配を推定するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 19.69067856415625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There are several applications of stochastic optimization where one can
benefit from a robust estimate of the gradient. For example, domains such as
distributed learning with corrupted nodes, the presence of large outliers in
the training data, learning under privacy constraints, or even heavy-tailed
noise due to the dynamics of the algorithm itself. Here we study SGD with
robust gradient estimators based on estimating the median. We first consider
computing the median gradient across samples, and show that the resulting
method can converge even under heavy-tailed, state-dependent noise. We then
derive iterative methods based on the stochastic proximal point method for
computing the geometric median and generalizations thereof. Finally we propose
an algorithm estimating the median gradient across iterations, and find that
several well known methods - in particular different forms of clipping - are
particular cases of this framework.
- Abstract(参考訳): 確率最適化のいくつかの応用があり、勾配の頑健な推定から恩恵を受けることができる。
例えば、破損したノードを持つ分散学習、トレーニングデータの大きな異常値の存在、プライバシの制約下での学習、アルゴリズム自体のダイナミクスによる重み付きノイズなどだ。
本稿では,中央値推定に基づくロバスト勾配推定器を用いたsgdについて検討する。
まず,サンプル間の中央勾配を計算し,重み付き状態依存雑音下でも収束できることを示す。
次に,幾何学的中央値とその一般化を計算する確率的近位点法に基づく反復法を導出する。
最後に,反復の中央値勾配を推定するアルゴリズムを提案し,いくつかのよく知られた方法,特にクリップングの異なる形式が,このフレームワークの具体例であることを示す。
関連論文リスト
- A Historical Trajectory Assisted Optimization Method for Zeroth-Order Federated Learning [24.111048817721592]
フェデレートラーニングは分散勾配降下技術に大きく依存している。
勾配情報が得られない状況では、勾配をゼロ次情報から推定する必要がある。
勾配推定法を改善するための非等方的サンプリング法を提案する。
論文 参考訳(メタデータ) (2024-09-24T10:36:40Z) - A quasi-Bayesian sequential approach to deconvolution density estimation [7.10052009802944]
密度デコンボリューションは、データからランダム信号の未知の密度関数$f$を推定する。
我々は、ノイズの多いデータが徐々に到着するストリーミングやオンライン環境での密度デコンボリューションの問題を考察する。
準ベイズ的シーケンシャルアプローチを頼りにすると、容易に評価できる$f$の推定値が得られる。
論文 参考訳(メタデータ) (2024-08-26T16:40:04Z) - Unbiased Kinetic Langevin Monte Carlo with Inexact Gradients [0.8749675983608172]
動力学的ランゲヴィンダイナミクスに基づく後進手段の非バイアス化手法を提案する。
提案した推定器は偏りがなく、有限分散となり、中心極限定理を満たす。
以上の結果から、大規模アプリケーションでは、非バイアスアルゴリズムは「ゴールドスタンダード」なハミルトニアン・モンテカルロよりも2~3桁効率が良いことが示された。
論文 参考訳(メタデータ) (2023-11-08T21:19:52Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Convergence of Batch Stochastic Gradient Descent Methods with
Approximate Gradients and/or Noisy Measurements: Theory and Computational
Results [0.9900482274337404]
BSGD(Block Gradient Descent)と呼ばれる非常に一般的な定式化を用いた凸最適化の研究
我々は近似理論に基づいて,BSGDが世界最小値に収束する条件を確立する。
近似勾配を用いると、BSGDは収束し、運動量に基づく手法は分岐できることを示す。
論文 参考訳(メタデータ) (2022-09-12T16:23:15Z) - Posterior and Computational Uncertainty in Gaussian Processes [52.26904059556759]
ガウスのプロセスはデータセットのサイズとともに違法にスケールする。
多くの近似法が開発されており、必然的に近似誤差を導入している。
この余分な不確実性の原因は、計算が限られているため、近似後部を使用すると完全に無視される。
本研究では,観測された有限個のデータと有限個の計算量の両方から生じる組合せ不確実性を一貫した推定を行う手法の開発を行う。
論文 参考訳(メタデータ) (2022-05-30T22:16:25Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Pathwise Conditioning of Gaussian Processes [72.61885354624604]
ガウス過程後部をシミュレーションするための従来のアプローチでは、有限個の入力位置のプロセス値の限界分布からサンプルを抽出する。
この分布中心の特徴づけは、所望のランダムベクトルのサイズで3次スケールする生成戦略をもたらす。
条件付けのこのパスワイズ解釈が、ガウス過程の後部を効率的にサンプリングするのに役立てる近似の一般族をいかに生み出すかを示す。
論文 参考訳(メタデータ) (2020-11-08T17:09:37Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z) - Oracle Lower Bounds for Stochastic Gradient Sampling Algorithms [39.746670539407084]
我々は、$bbRd$の強い対数凹密度からサンプリングする問題を考察する。
必要なログ密度の勾配クエリ数に基づいて,情報理論の下界を証明した。
論文 参考訳(メタデータ) (2020-02-01T23:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。