Fugu-MT 論文翻訳(概要): Role of Momentum in Smoothing Objective Function in Implicit Graduated Optimization

論文の概要: Role of Momentum in Smoothing Objective Function in Implicit Graduated Optimization

arxiv url: http://arxiv.org/abs/2402.02325v1
Date: Sun, 4 Feb 2024 02:48:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 20:38:28.104214
Title: Role of Momentum in Smoothing Objective Function in Implicit Graduated Optimization
Title（参考訳）: 逐次最適化における平滑な目的関数におけるモメンタムの役割
Authors: Naoki Sato and Hideaki Iiduka
Abstract要約: 運動量を持つ勾配降下(SGD)は、高速収束と優れた一般化性を有する。運動量を持つSGDは、学習速度、バッチサイズ、運動量係数、勾配のばらつき、勾配ノルムの上界によって決定される目的関数を滑らかにすることを示す。
参考スコア（独自算出の注目度）: 0.8158530638728501
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While stochastic gradient descent (SGD) with momentum has fast convergence and excellent generalizability, a theoretical explanation for this is lacking. In this paper, we show that SGD with momentum smooths the objective function, the degree of which is determined by the learning rate, the batch size, the momentum factor, the variance of the stochastic gradient, and the upper bound of the gradient norm. This theoretical finding reveals why momentum improves generalizability and provides new insights into the role of the hyperparameters, including momentum factor. We also present an implicit graduated optimization algorithm that exploits the smoothing properties of SGD with momentum and provide experimental results supporting our assertion that SGD with momentum smooths the objective function.
Abstract（参考訳）: 運動量を持つ確率的勾配降下(sgd)は高速収束と優れた一般化性を持つが、理論的な説明は不足している。本稿では,運動量を持つSGDが目的関数を滑らかにし,学習速度,バッチサイズ,運動量係数,確率勾配のばらつき,勾配ノルムの上界によって決定される度合いを示す。この理論的な発見は運動量が一般化可能性を向上させる理由を明らかにし、運動量因子を含むハイパーパラメーターの役割に関する新たな洞察を提供する。また、運動量を持つSGDの滑らか化特性を利用した暗黙的な漸進最適化アルゴリズムを提案し、運動量を持つSGDが目的関数を滑らかにすることを示す実験結果を提供する。

関連論文リスト

On the Provable Suboptimality of Momentum SGD in Nonstationary Stochastic Optimization [0.0]
各種段差系における均一な凸性および滑らか性の下でのグラディエントDescentの追跡性能を解析した。本研究では,ドリフトによる追従誤差を大幅に増幅し,追従能力に明らかなペナルティを与えることを示す。これらの結果は、動的環境における運動量の経験的不安定性に対する決定的な理論的根拠を与える。
論文参考訳（メタデータ） (2026-01-18T03:27:21Z)
Stochastic Weakly Convex Optimization Under Heavy-Tailed Noises [55.43924214633558]
本稿では,サブワイブルノイズとSsBCノイズの2種類のノイズに着目した。これら2つのノイズ仮定の下では、凸最適化と滑らかな最適化の文脈において、SFOMの不規則および高確率収束が研究されている。
論文参考訳（メタデータ） (2025-07-17T16:48:45Z)
Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文参考訳（メタデータ） (2023-11-07T17:39:17Z)
The Marginal Value of Momentum for Small Learning Rate SGD [20.606430391298815]
モーメントは、勾配雑音のない強い凸条件下での勾配降下の収束を加速することが知られている。実験により、最適学習率があまり大きくない実践訓練において、運動量には最適化と一般化の両方の利点があることがわかった。
論文参考訳（メタデータ） (2023-07-27T21:01:26Z)
Convergence of mean-field Langevin dynamics: Time and space discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文参考訳（メタデータ） (2023-06-12T16:28:11Z)
Stability and Generalization Analysis of Gradient Methods for Shallow Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文参考訳（メタデータ） (2022-09-19T18:48:00Z)
Label noise (stochastic) gradient descent implicitly solves the Lasso for quadratic parametrisation [14.244787327283335]
本研究では, 連続時間モデルを用いて, 4次パラメトリッドモデルのトレーニング力学におけるラベルノイズの役割について検討する。本研究は,構造ノイズがより高度な一般化を誘導し,実際に観察されるダイナミックスの性能の向上を説明できることを示すものである。
論文参考訳（メタデータ） (2022-06-20T15:24:42Z)
High-Order Qubit Dephasing at Sweet Spots by Non-Gaussian Fluctuators: Symmetry Breaking and Floquet Protection [55.41644538483948]
非ガウスゆらぎによるqubit dephasingについて検討した。非ガウス雑音に特有の対称性破壊効果を予測する。
論文参考訳（メタデータ） (2022-06-06T18:02:38Z)
Computing the Variance of Shuffling Stochastic Gradient Algorithms via Power Spectral Density Analysis [6.497816402045099]
理論上の利点を持つ勾配降下(SGD)の2つの一般的な選択肢は、ランダムリシャッフル(SGDRR)とシャッフルオンス(SGD-SO)である。本研究では,SGD,SGDRR,SGD-SOの定常変動について検討した。
論文参考訳（メタデータ） (2022-06-01T17:08:04Z)
On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。理論的にも経験的にも二重降下現象を観察する。
論文参考訳（メタデータ） (2021-10-13T17:47:39Z)
Revisiting the Characteristics of Stochastic Gradient Noise and Dynamics [25.95229631113089]
勾配雑音は有限分散を持ち、したがって中央極限定理(CLT)が適用されることを示す。次に、勾配降下の定常分布の存在を実証し、その分布を少ない学習速度で近似する。
論文参考訳（メタデータ） (2021-09-20T20:39:14Z)
On the Hyperparameters in Stochastic Gradient Descent with Momentum [6.396288020763144]
本稿では,運動量を伴う勾配降下理論(SGD)について述べる。以上の結果から,SGD の正の線形速度は,SGD が0 から0 に増加するにつれて変化し,SGD の線形速度が変化することを示す。最後に、この速度下での代理運動量と運動量との本質的な違いは示さない。
論文参考訳（メタデータ） (2021-08-09T11:25:03Z)
Differentiable Annealed Importance Sampling and the Perils of Gradient Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文参考訳（メタデータ） (2021-07-21T17:10:14Z)
Stochastic gradient descent with noise of machine learning type. Part II: Continuous time analysis [0.0]
特定の雑音条件下では、最適化アルゴリズムは、同質雑音を伴う連続時間SGDの平坦な最小選択とは異なる意味で、目的関数の「平坦な」ミニマを好むことを示す。
論文参考訳（メタデータ） (2021-06-04T16:34:32Z)
On the Generalization of Stochastic Gradient Descent with Momentum [58.900860437254885]
まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
論文参考訳（メタデータ） (2021-02-26T18:58:29Z)
Noise and Fluctuation of Finite Learning Rate Stochastic Gradient Descent [3.0079490585515343]
勾配降下(SGD)は、消滅する学習率体制において比較的よく理解されている。 SGDとその変異体の基本特性を非退化学習率体系で研究することを提案する。
論文参考訳（メタデータ） (2020-12-07T12:31:43Z)
A High Probability Analysis of Adaptive SGD with Momentum [22.9530287983179]
Gradient Descent(DSG)とその変種は、機械学習アプリケーションで最も使われているアルゴリズムである。モーメントを持つdelayedGrad の滑らかな非設定において、勾配が 0 になる確率を初めて示す。
論文参考訳（メタデータ） (2020-07-28T15:06:22Z)
Dynamic of Stochastic Gradient Descent with State-Dependent Noise [84.64013284862733]
勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練するための主流の方法である。局所ミニマの局所領域におけるSGDのノイズの共分散は状態の二次関数であることを示す。本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
論文参考訳（メタデータ） (2020-06-24T13:34:38Z)
Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文参考訳（メタデータ） (2020-06-15T18:31:02Z)
Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。分散による離散乗法雑音のパラメータによく現れることを示す。最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文参考訳（メタデータ） (2020-06-11T09:58:01Z)
Stochastic Optimization with Heavy-Tailed Noise via Accelerated Gradient Clipping [69.9674326582747]
そこで本研究では,重み付き分散雑音を用いたスムーズな凸最適化のための,クリップ付きSSTMと呼ばれる新しい1次高速化手法を提案する。この場合、最先端の結果を上回る新たな複雑さが証明される。本研究は,SGDにおいて,ノイズに対する光細かな仮定を伴わずにクリッピングを施した最初の非自明な高確率複雑性境界を導出した。
論文参考訳（メタデータ） (2020-05-21T17:05:27Z)
On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文参考訳（メタデータ） (2020-04-15T09:52:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。