論文の概要: Momentum Doesn't Change the Implicit Bias
- arxiv url: http://arxiv.org/abs/2110.03891v1
- Date: Fri, 8 Oct 2021 04:37:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 01:07:42.919373
- Title: Momentum Doesn't Change the Implicit Bias
- Title(参考訳): Momentumは有害なバイアスを変えない
- Authors: Bohan Wang, Qi Meng, Huishuai Zhang, Ruoyu Sun, Wei Chen, Zhi-Ming Ma
- Abstract要約: 我々は運動量に基づく最適化の暗黙バイアスを分析する。
モデルパラメータと最大マージン解の間のギャップを解析するためのツールとして,新しいリアプノフ関数を構築した。
- 参考スコア(独自算出の注目度): 36.301490759243876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The momentum acceleration technique is widely adopted in many optimization
algorithms. However, the theoretical understanding of how the momentum affects
the generalization performance of the optimization algorithms is still unknown.
In this paper, we answer this question through analyzing the implicit bias of
momentum-based optimization. We prove that both SGD with momentum and Adam
converge to the $L_2$ max-margin solution for exponential-tailed loss, which is
the same as vanilla gradient descent. That means, these optimizers with
momentum acceleration still converge to a model with low complexity, which
provides guarantees on their generalization. Technically, to overcome the
difficulty brought by the error accumulation in analyzing the momentum, we
construct new Lyapunov functions as a tool to analyze the gap between the model
parameter and the max-margin solution.
- Abstract(参考訳): 運動量加速法は多くの最適化アルゴリズムで広く採用されている。
しかし、モーメントが最適化アルゴリズムの一般化性能に与える影響に関する理論的理解はまだ分かっていない。
本稿では,モーメントに基づく最適化の暗黙バイアスを解析することにより,この問題に答える。
運動量を持つ SGD とアダムはともに、指数関数的尾の損失に対して$L_2$ max-margin の解に収束することが証明される。
つまり、運動量加速度を持つこれらのオプティマイザは、複雑さの低いモデルに収束し、一般化の保証を提供する。
厳密には、モーメント解析における誤差蓄積による困難を克服するため、モデルパラメータと最大マージン解の間のギャップを解析するためのツールとして、新しいリャプノフ関数を構築した。
関連論文リスト
- A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Accelerated forward-backward and Douglas-Rachford splitting dynamics [0.0]
加速フォワード・バックワード(FB)およびダグラス・ラフフォード(DR)分割アルゴリズムの連続時間変動の収束特性について検討した。
FB分割力学では、指数収束速度の加速が一般の強い凸問題に取って代わることを示す。
論文 参考訳(メタデータ) (2024-07-30T07:52:22Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Optimizing Information-theoretical Generalization Bounds via Anisotropic
Noise in SGLD [73.55632827932101]
SGLDにおけるノイズ構造を操作することにより,情報理論の一般化を最適化する。
低経験的リスクを保証するために制約を課すことで、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
論文 参考訳(メタデータ) (2021-10-26T15:02:27Z) - Just a Momentum: Analytical Study of Momentum-Based Acceleration Methods
in Paradigmatic High-Dimensional Non-Convex Problem [12.132641563193584]
損失関数が過剰な場合、バニラ勾配に基づく損失法よりも運動量に基づく方法を使うのが一般的である。
実効的なステップボールのダイナミクスは, 質量の増大によって向上し, 上昇することを示す。
論文 参考訳(メタデータ) (2021-02-23T15:30:57Z) - The Role of Momentum Parameters in the Optimal Convergence of Adaptive
Polyak's Heavy-ball Methods [12.93796690939018]
適応型Polyak's Heavy-ball (HB) 法は最適な個人収束率を$O(frac1sqrtt)$とする。
新しい解析では,hb運動量とその時間的変動が凸最適化の高速化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-02-15T02:57:14Z) - A New Accelerated Stochastic Gradient Method with Momentum [4.967897656554012]
運動量(Sgdm)による勾配降下は、繰り返し時間とともに指数関数的に減衰する重みを使い、運動量項を生成する。
本研究では,指数関数的減衰重みと逆比例分解重みの両方が領域に最適化されるパラメータの移動方向のばらつきを制限することができる理論収束特性解析を行う。
論文 参考訳(メタデータ) (2020-05-31T03:04:32Z) - Revisiting SGD with Increasingly Weighted Averaging: Optimization and
Generalization Perspectives [50.12802772165797]
平均化手法は、全ての反復解を一つの解に結合する。
実験は、他の平均化方式と比較して、トレードオフと平均化の有効性を示した。
論文 参考訳(メタデータ) (2020-03-09T18:14:00Z) - Fractional Underdamped Langevin Dynamics: Retargeting SGD with Momentum
under Heavy-Tailed Gradient Noise [39.9241638707715]
FULDは, 深層学習における役割において, 自然的, エレガントな手法と類似性があることが示唆された。
論文 参考訳(メタデータ) (2020-02-13T18:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。