論文の概要: Nonlinear gradient mappings and stochastic optimization: A general
framework with applications to heavy-tail noise
- arxiv url: http://arxiv.org/abs/2204.02593v1
- Date: Wed, 6 Apr 2022 06:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 15:26:25.827110
- Title: Nonlinear gradient mappings and stochastic optimization: A general
framework with applications to heavy-tail noise
- Title(参考訳): 非線形勾配写像と確率最適化--重み付き雑音への適用をめざして
- Authors: Dusan Jakovetic, Dragana Bajovic, Anit Kumar Sahu, Soummya Kar,
Nemanja Milosevic, Dusan Stamenkovic
- Abstract要約: 本稿では,勾配雑音が重みを示す場合の非線形勾配降下シナリオに関する一般的な枠組みを紹介する。
有界出力を持つ非線形性や1より大きい順序の有限モーメントを持たない勾配雑音に対して、非線形SGDは速度$O(/tzeta)$, $zeta in (0, 1)$でゼロに収束することを示す。
実験により、我々のフレームワークは、ヘビーテールノイズ下でのSGDの既存研究よりも汎用的であるが、我々のフレームワークから実装が容易ないくつかの非線形性は、実際のデータセット上のアート代替品の状況と競合することを示した。
- 参考スコア(独自算出の注目度): 11.768495184175052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a general framework for nonlinear stochastic gradient descent
(SGD) for the scenarios when gradient noise exhibits heavy tails. The proposed
framework subsumes several popular nonlinearity choices, like clipped,
normalized, signed or quantized gradient, but we also consider novel
nonlinearity choices. We establish for the considered class of methods strong
convergence guarantees assuming a strongly convex cost function with Lipschitz
continuous gradients under very general assumptions on the gradient noise. Most
notably, we show that, for a nonlinearity with bounded outputs and for the
gradient noise that may not have finite moments of order greater than one, the
nonlinear SGD's mean squared error (MSE), or equivalently, the expected cost
function's optimality gap, converges to zero at rate~$O(1/t^\zeta)$, $\zeta \in
(0,1)$. In contrast, for the same noise setting, the linear SGD generates a
sequence with unbounded variances. Furthermore, for the nonlinearities that can
be decoupled component wise, like, e.g., sign gradient or component-wise
clipping, we show that the nonlinear SGD asymptotically (locally) achieves a
$O(1/t)$ rate in the weak convergence sense and explicitly quantify the
corresponding asymptotic variance. Experiments show that, while our framework
is more general than existing studies of SGD under heavy-tail noise, several
easy-to-implement nonlinearities from our framework are competitive with state
of the art alternatives on real data sets with heavy tail noises.
- Abstract(参考訳): 本稿では, 非線形確率勾配降下法(SGD)を, 勾配雑音が重みを呈するシナリオに適用する。
提案手法は, クリッピング, 正規化, 符号付け, 量子化勾配などの一般的な非線形性選択を仮定するが, 新たな非線形性選択も検討する。
本研究では,リプシッツ連続勾配を持つ強凸コスト関数を,勾配雑音の一般仮定下で仮定した強収束保証を定式化する。
最も注目すべきは、有界な出力を持つ非線形性と、有限次モーメントを持たない勾配雑音に対して、非線形 sgd 平均二乗誤差 (mse) あるいは、期待コスト関数の最適性ギャップ (optimizeity gap) が −$o(1/t^\zeta)$,$\zeta \in (0,1)$ でゼロに収束することである。
対照的に、同じ雑音設定の場合、線形SGDは非有界なばらつきのシーケンスを生成する。
さらに、例えば、符号勾配や成分ワイドクリッピングのように、成分を分解できる非線形性については、非線形SGDが弱収束感覚において漸近的に(局所的に)$O(1/t)のレートを達成し、対応する漸近分散を明示的に定量化することを示す。
実験により, 提案手法は, 重音下のsgdの既存研究よりも汎用性が高いが, 重音の実データ集合では, 実装が容易な非線形性と競合することがわかった。
関連論文リスト
- Large Deviations and Improved Mean-squared Error Rates of Nonlinear SGD: Heavy-tailed Noise and Power of Symmetry [47.653744900375855]
本研究では,オンライン環境における非線形凸勾配法の一般的な枠組みを,大偏差と平均二乗誤差(MSE)で保証する。
重騒音対称密度関数の存在下での広帯域ステップサイズに対する強い結果を与える。
論文 参考訳(メタデータ) (2024-10-21T04:50:57Z) - Nonlinear Stochastic Gradient Descent and Heavy-tailed Noise: A Unified Framework and High-probability Guarantees [56.80920351680438]
本研究では,重音の存在下でのオンライン学習における高確率収束について検討する。
切断のみを考慮し、有界な$p$-thモーメントでノイズを必要とする最先端技術と比較して、幅広い非線形性の保証を提供する。
論文 参考訳(メタデータ) (2024-10-17T18:25:28Z) - Convergence Analysis of Adaptive Gradient Methods under Refined Smoothness and Noise Assumptions [18.47705532817026]
AdaGradは特定の条件下では$d$でSGDより優れていることを示す。
これを動機として、目的物の滑らかさ構造と勾配のばらつきを仮定する。
論文 参考訳(メタデータ) (2024-06-07T02:55:57Z) - Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - High-probability Convergence Bounds for Nonlinear Stochastic Gradient Descent Under Heavy-tailed Noise [59.25598762373543]
重み付き雑音の存在下でのストリーミングデータにおける学習の精度保証について検討した。
解析的に、与えられた問題に対する設定の選択に$ta$を使うことができることを実証する。
論文 参考訳(メタデータ) (2023-10-28T18:53:41Z) - Convex and Non-convex Optimization Under Generalized Smoothness [69.69521650503431]
凸法と非最適化法の分析は、しばしばリプシッツ勾配を必要とし、この軌道による解析を制限する。
最近の研究は、非一様滑らか性条件を通した勾配設定を一般化している。
論文 参考訳(メタデータ) (2023-06-02T04:21:59Z) - The Power of Adaptivity in SGD: Self-Tuning Step Sizes with Unbounded
Gradients and Affine Variance [46.15915820243487]
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
論文 参考訳(メタデータ) (2022-02-11T17:37:54Z) - GradientDICE: Rethinking Generalized Offline Estimation of Stationary
Values [75.17074235764757]
対象ポリシーの状態分布とサンプリング分布の密度比を推定するグラディエントDICEを提案する。
GenDICEはそのような密度比を推定するための最先端技術である。
論文 参考訳(メタデータ) (2020-01-29T22:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。