論文の概要: Signal Processing Meets SGD: From Momentum to Filter
- arxiv url: http://arxiv.org/abs/2311.02818v7
- Date: Fri, 07 Mar 2025 21:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:39:24.243721
- Title: Signal Processing Meets SGD: From Momentum to Filter
- Title(参考訳): 信号処理とSGD: モーメントからフィルタへ
- Authors: Zhipeng Yao, Rui Yu, Guisong Chang, Ying Li, Yu Zhang, Dazhou Li,
- Abstract要約: ディープラーニングでは、勾配降下(SGD)とその運動量に基づく変種が最適化に広く利用されている。
本稿では,信号処理レンズを用いて勾配挙動を解析し,更新に影響を与える重要な要因を分離する。
本稿では,ワイナーフィルタの原理に基づく新しいSGDF手法を提案する。
- 参考スコア(独自算出の注目度): 6.751292200515355
- License:
- Abstract: In deep learning, stochastic gradient descent (SGD) and its momentum-based variants are widely used for optimization. However, the internal dynamics of these methods remain underexplored. In this paper, we analyze gradient behavior through a signal processing lens, isolating key factors that influence gradient updates and revealing a critical limitation: momentum techniques lack the flexibility to adequately balance bias and variance components in gradients, resulting in gradient estimation inaccuracies. To address this issue, we introduce a novel method SGDF (SGD with Filter) based on Wiener Filter principles, which derives an optimal time-varying gain to refine gradient updates by minimizing the mean square error in gradient estimation. This method yields an optimal first-order gradient estimate, effectively balancing noise reduction and signal preservation. Furthermore, our approach could extend to adaptive optimizers, enhancing their generalization potential. Empirical results show that SGDF achieves superior convergence and generalization compared to traditional momentum methods, and performs competitively with state-of-the-art optimizers.
- Abstract(参考訳): ディープラーニングでは、確率勾配降下(SGD)とその運動量に基づく変種が最適化に広く利用されている。
しかし、これらの手法の内部力学はいまだ未解明のままである。
本稿では,信号処理レンズを用いて勾配挙動を分析し,勾配更新に影響を与える重要な要因を分離し,臨界限界を明らかにする。
この問題を解決するために、Wienerフィルタの原理に基づくSGDF(SGD with Filter)という新しい手法を導入し、勾配推定における平均二乗誤差を最小化して勾配更新を洗練させる最適な時間変化ゲインを導出する。
この方法では、雑音の低減と信号保存を効果的にバランスして、最適な1次勾配推定を行う。
さらに,本手法は適応オプティマイザにまで拡張され,一般化ポテンシャルが向上する可能性がある。
実験により,SGDFは従来の運動量法に比べて収束と一般化が優れ,最先端の最適化器と競合することを示した。
関連論文リスト
- Faster Convergence of Stochastic Accelerated Gradient Descent under Interpolation [51.248784084461334]
我々はNesterov加速度アンダーホ条件の一般化版に対する新しい収束率を証明した。
本分析により, 従来の研究に比べて, 強い成長定数への依存度を$$$から$sqrt$に下げることができた。
論文 参考訳(メタデータ) (2024-04-03T00:41:19Z) - Score-Guided Intermediate Layer Optimization: Fast Langevin Mixing for
Inverse Problem [97.64313409741614]
ランダム重み付きDNNジェネレータを反転させるため,Langevinアルゴリズムの定常分布を高速に混合し,特徴付ける。
本稿では,事前学習した生成モデルの潜時空間における後部サンプリングを提案する。
論文 参考訳(メタデータ) (2022-06-18T03:47:37Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - AdaL: Adaptive Gradient Transformation Contributes to Convergences and
Generalizations [4.991328448898387]
元の勾配を変換したAdaLを提案する。
AdaLは初期の勾配を増幅することで収束を加速し、振動を減衰させ、後に勾配を縮めることで最適化を安定化する。
論文 参考訳(メタデータ) (2021-07-04T02:55:36Z) - Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to
Improve Generalization [89.7882166459412]
勾配雑音(SGN)は、ディープラーニングの暗黙の正規化として機能する。
深層学習を改善するためにランダムノイズを注入してSGNを人工的にシミュレートしようとした作品もある。
低計算コストでSGNをシミュレーションし、学習率やバッチサイズを変更することなく、PNM(Positive-Negative Momentum)アプローチを提案する。
論文 参考訳(メタデータ) (2021-03-31T16:08:06Z) - The Role of Momentum Parameters in the Optimal Convergence of Adaptive
Polyak's Heavy-ball Methods [12.93796690939018]
適応型Polyak's Heavy-ball (HB) 法は最適な個人収束率を$O(frac1sqrtt)$とする。
新しい解析では,hb運動量とその時間的変動が凸最適化の高速化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-02-15T02:57:14Z) - Convergence Analysis of Homotopy-SGD for non-convex optimization [43.71213126039448]
ホモトピー法とSGDを組み合わせた一階述語アルゴリズム、Gradienty-Stoch Descent (H-SGD)を提案する。
いくつかの仮定の下で、提案した問題の理論的解析を行う。
実験の結果,H-SGDはSGDより優れていた。
論文 参考訳(メタデータ) (2020-11-20T09:50:40Z) - Obtaining Adjustable Regularization for Free via Iterate Averaging [43.75491612671571]
最適化のための正規化は、機械学習の過度な適合を避けるための重要なテクニックである。
我々は、任意の強凸かつ滑らかな対象関数上のSGDの繰り返しを正規化された関数に変換する平均化スキームを確立する。
提案手法は,高速化および事前条件最適化手法にも利用できる。
論文 参考訳(メタデータ) (2020-08-15T15:28:05Z) - When Does Preconditioning Help or Hurt Generalization? [74.25170084614098]
本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。
本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
論文 参考訳(メタデータ) (2020-06-18T17:57:26Z) - Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite
Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。
我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2020-06-12T09:39:47Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。