Fugu-MT 論文翻訳(概要): Non-Uniform Smoothness for Gradient Descent

論文の概要: Non-Uniform Smoothness for Gradient Descent

arxiv url: http://arxiv.org/abs/2311.08615v1
Date: Wed, 15 Nov 2023 00:44:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 17:37:47.009827
Title: Non-Uniform Smoothness for Gradient Descent
Title（参考訳）: グラディエントDescenceに対する非均一な平滑化
Authors: Albert S. Berahas, Lindon Roberts, Fred Roosta
Abstract要約: リプシッツ連続勾配滑らか度条件を一般化する局所一階滑らか度オラクル(LFSO)を導入する。このオラクルは、適切な修正を施した勾配降下法のために、チューニングの段階化に関するすべての問題情報をエンコードできることを示す。また、この修正された一階法におけるLFSOは、非常に平坦な最小値を持つ非強凸問題に対して、大域的線形収束率が得られることを示す。
参考スコア（独自算出の注目度）: 5.64297382055816
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The analysis of gradient descent-type methods typically relies on the Lipschitz continuity of the objective gradient. This generally requires an expensive hyperparameter tuning process to appropriately calibrate a stepsize for a given problem. In this work we introduce a local first-order smoothness oracle (LFSO) which generalizes the Lipschitz continuous gradients smoothness condition and is applicable to any twice-differentiable function. We show that this oracle can encode all relevant problem information for tuning stepsizes for a suitably modified gradient descent method and give global and local convergence results. We also show that LFSOs in this modified first-order method can yield global linear convergence rates for non-strongly convex problems with extremely flat minima, and thus improve over the lower bound on rates achievable by general (accelerated) first-order methods.
Abstract（参考訳）: 勾配降下型法の解析は、典型的には目的勾配のリプシッツ連続性に依存する。これは一般に、与えられた問題のステップを適切に調整するために高価なハイパーパラメータチューニングプロセスを必要とする。本研究では、リプシッツ連続勾配滑らか化条件を一般化する局所一階滑らか度オラクル(LFSO)を導入し、任意の2次微分可能関数に適用する。このオラクルは、適応的に修正された勾配降下法のためにステップ化をチューニングするための全ての関連する問題情報をエンコードし、大域的および局所的な収束結果を与えることができる。また,この修正一階法におけるlfsosは,超平坦な極小の非強凸問題に対して大域的線形収束率を生じさせ,一般(加速)一階法で達成可能な下限オンレートを改善できることを示した。

関連論文リスト

First-ish Order Methods: Hessian-aware Scalings of Gradient Descent [11.125968799758436]
勾配降下の鍵となる制限は、自然スケーリングの欠如である。曲率を考慮することで、適応的なヘッセン対応スケーリング手法により、局所的な単位ステップサイズが保証される。我々は,この手法が標準リプシッツ仮定のかなり弱いバージョンの下でグローバルに収束することを示す。
論文参考訳（メタデータ） (2025-02-06T01:22:23Z)
Methods for Convex $(L_0,L_1)$-Smooth Optimization: Clipping, Acceleration, and Adaptivity [50.25258834153574]
我々は、(強に)凸 $(L0)$-smooth 関数のクラスに焦点を当て、いくつかの既存のメソッドに対する新しい収束保証を導出する。特に,スムーズなグラディエント・クリッピングを有するグラディエント・ディフレッシュと,ポリアク・ステップサイズを有するグラディエント・ディフレッシュのコンバージェンス・レートの改善を導出した。
論文参考訳（メタデータ） (2024-09-23T13:11:37Z)
Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文参考訳（メタデータ） (2024-08-17T02:22:08Z)
Directional Smoothness and Gradient Methods: Convergence and Adaptivity [16.779513676120096]
我々は、最適化の経路に沿った目的の条件付けに依存する勾配降下に対する新しい準最適境界を開発する。我々の証明の鍵となるのは方向の滑らかさであり、これは、目的の上のバウンドを開発するために使用する勾配変動の尺度である。我々は,方向の滑らかさの知識を使わずとも,ポリアクのステップサイズと正規化GDが高速で経路依存の速度を得ることを示した。
論文参考訳（メタデータ） (2024-03-06T22:24:05Z)
A Generalized Alternating Method for Bilevel Learning under the Polyak-{\L}ojasiewicz Condition [63.66516306205932]
バイレベル最適化は、その新興機械学習分野への応用により、最近、関心を取り戻している。最近の結果は、単純な反復に基づくイテレーションは、低レベルな目標の凸に起因する利害と一致することを示しています。
論文参考訳（メタデータ） (2023-06-04T17:54:11Z)
Convex and Non-convex Optimization Under Generalized Smoothness [69.69521650503431]
凸法と非最適化法の分析は、しばしばリプシッツ勾配を必要とし、この軌道による解析を制限する。最近の研究は、非一様滑らか性条件を通した勾配設定を一般化している。
論文参考訳（メタデータ） (2023-06-02T04:21:59Z)
SGD with AdaGrad Stepsizes: Full Adaptivity with High Probability to Unknown Parameters, Unbounded Gradients and Affine Variance [33.593203156666746]
本稿では,AdaGradが一階最適化のための適応(自己調整)手法を段階化することを示す。低ノイズと高レジの両方で、低ノイズと高レジの両方で急激な収束率を見出す。
論文参考訳（メタデータ） (2023-02-17T09:46:08Z)
Stability vs Implicit Bias of Gradient Methods on Separable Data and Beyond [33.593203156666746]
分離線形分類に適用された非正規化勾配に基づく学習手順の一般化特性に着目する。この一般化についてさらに統一的な説明をし、実現可能性と自己有界性(self-boundedness)と呼ぶ。これらのケースのいくつかでは、文献における既存の一般化誤差境界に対して、我々の境界は著しく改善される。
論文参考訳（メタデータ） (2022-02-27T19:56:36Z)
The Power of Adaptivity in SGD: Self-Tuning Step Sizes with Unbounded Gradients and Affine Variance [46.15915820243487]
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。 AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
論文参考訳（メタデータ） (2022-02-11T17:37:54Z)
High-probability Bounds for Non-Convex Stochastic Optimization with Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文参考訳（メタデータ） (2021-06-28T00:17:01Z)
Balancing Rates and Variance via Adaptive Batch-Size for Stochastic Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文参考訳（メタデータ） (2020-07-02T16:02:02Z)
Adaptive Gradient Methods Converge Faster with Over-Parameterization (but you should do a line-search) [32.24244211281863]
データを補間するのに十分なパラメータ化モデルを用いて、スムーズで凸的な損失を簡易に設定する。一定のステップサイズと運動量を持つ AMSGrad がより高速な$O(1/T)$レートで最小値に収束することを証明する。これらの手法により,タスク間の適応勾配法の収束と一般化が向上することを示す。
論文参考訳（メタデータ） (2020-06-11T21:23:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。