論文の概要: Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum
- arxiv url: http://arxiv.org/abs/2410.16871v1
- Date: Tue, 22 Oct 2024 10:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:28:05.207211
- Title: Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum
- Title(参考訳): L_0,L_1)$-Smoothness以下の誤差フィードバック:正規化とモーメント
- Authors: Sarit Khirirat, Abdurakhmon Sadiev, Artem Riabinin, Eduard Gorbunov, Peter Richtárik,
- Abstract要約: 機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
- 参考スコア(独自算出の注目度): 56.37522020675243
- License:
- Abstract: We provide the first proof of convergence for normalized error feedback algorithms across a wide range of machine learning problems. Despite their popularity and efficiency in training deep neural networks, traditional analyses of error feedback algorithms rely on the smoothness assumption that does not capture the properties of objective functions in these problems. Rather, these problems have recently been shown to satisfy generalized smoothness assumptions, and the theoretical understanding of error feedback algorithms under these assumptions remains largely unexplored. Moreover, to the best of our knowledge, all existing analyses under generalized smoothness either i) focus on single-node settings or ii) make unrealistically strong assumptions for distributed settings, such as requiring data heterogeneity, and almost surely bounded stochastic gradient noise variance. In this paper, we propose distributed error feedback algorithms that utilize normalization to achieve the $O(1/\sqrt{K})$ convergence rate for nonconvex problems under generalized smoothness. Our analyses apply for distributed settings without data heterogeneity conditions, and enable stepsize tuning that is independent of problem parameters. Additionally, we provide strong convergence guarantees of normalized error feedback algorithms for stochastic settings. Finally, we show that due to their larger allowable stepsizes, our new normalized error feedback algorithms outperform their non-normalized counterparts on various tasks, including the minimization of polynomial functions, logistic regression, and ResNet-20 training.
- Abstract(参考訳): 機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
ディープニューラルネットワークのトレーニングにおいて、その人気と効率性にもかかわらず、伝統的なエラーフィードバックアルゴリズムの分析は、これらの問題における目的関数の性質を捉えない滑らかさの仮定に依存している。
むしろ、これらの問題は一般化された滑らかさの仮定を満たすことが最近示され、これらの仮定の下での誤差フィードバックアルゴリズムの理論的理解はほとんど解明されていない。
さらに、私たちの知識を最大限に活用するために、一般化された滑らかさの下での既存の分析は、いずれかのどちらかである。
一 単一ノードの設定に着目すること
二 データの異質性、ほぼ確実に束縛された確率勾配雑音分散等の分散設定について非現実的に強い仮定を行うこと。
本稿では,正規化を利用した分散誤差フィードバックアルゴリズムを提案し,一般化された滑らかさの下での非凸問題に対する$O(1/\sqrt{K})$収束率を求める。
本研究では,データ不均一性条件を伴わない分散設定に適用し,問題パラメータに依存しない段階的なチューニングを可能にする。
さらに,確率的設定に対する正規化誤差フィードバックアルゴリズムの強い収束保証を提供する。
最後に,新たな正規化エラーフィードバックアルゴリズムにより,多項式関数の最小化,ロジスティック回帰,ResNet-20トレーニングなど,様々なタスクにおいて非正規化エラーフィードバックアルゴリズムよりも優れることを示す。
関連論文リスト
- Distributionally Robust Optimization with Bias and Variance Reduction [9.341215359733601]
勾配に基づくアルゴリズムであるProspectは、スムーズな正規化損失に対する線形収束を享受していることを示す。
また、勾配法のようなベースラインよりも2~3$times$早く収束できることも示している。
論文 参考訳(メタデータ) (2023-10-21T00:03:54Z) - Exploring the Algorithm-Dependent Generalization of AUPRC Optimization
with List Stability [107.65337427333064]
AUPRC(Area Under the Precision-Recall Curve)の最適化は、機械学習にとって重要な問題である。
本研究では, AUPRC最適化の単依存一般化における最初の試行について述べる。
3つの画像検索データセットの実験は、我々のフレームワークの有効性と健全性に言及する。
論文 参考訳(メタデータ) (2022-09-27T09:06:37Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Learning through atypical ''phase transitions'' in overparameterized
neural networks [0.43496401697112685]
現在のディープニューラルネットワークは可観測性が高く(最大数十億の接続重み)、非線形である。
しかし、過剰な降下アルゴリズムによってほぼ完全にデータに適合し、予期せぬ精度の予測を達成できる。
これらは一般化なしの恐ろしい挑戦である。
論文 参考訳(メタデータ) (2021-10-01T23:28:07Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Towards Optimal Problem Dependent Generalization Error Bounds in
Statistical Learning Theory [11.840747467007963]
我々は,「ベスト勾配仮説」で評価された分散,有効損失誤差,ノルムとほぼ最適にスケールする問題依存率について検討する。
一様局所収束(uniform localized convergence)と呼ばれる原理的枠組みを導入する。
我々は,既存の一様収束と局所化解析のアプローチの基本的制約を,我々のフレームワークが解決していることを示す。
論文 参考訳(メタデータ) (2020-11-12T04:07:29Z) - Provably Convergent Working Set Algorithm for Non-Convex Regularized
Regression [0.0]
本稿では、収束保証付き非正則正規化器のためのワーキングセットアルゴリズムを提案する。
その結果,ブロックコーディネートや勾配ソルバの完全解法と比較して高い利得を示した。
論文 参考訳(メタデータ) (2020-06-24T07:40:31Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z) - Neural Control Variates [71.42768823631918]
ニューラルネットワークの集合が、積分のよい近似を見つけるという課題に直面していることを示す。
理論的に最適な分散最小化損失関数を導出し、実際に安定したオンライントレーニングを行うための代替の複合損失を提案する。
具体的には、学習した光場近似が高次バウンスに十分な品質であることを示し、誤差補正を省略し、無視可能な可視バイアスのコストでノイズを劇的に低減できることを示した。
論文 参考訳(メタデータ) (2020-06-02T11:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。