論文の概要: Signal Processing Meets SGD: From Momentum to Filter
- arxiv url: http://arxiv.org/abs/2311.02818v4
- Date: Fri, 2 Feb 2024 00:45:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 19:30:07.208115
- Title: Signal Processing Meets SGD: From Momentum to Filter
- Title(参考訳): 信号処理とSGD: モーメントからフィルタへ
- Authors: Zhipeng Yao, Yu Zhang, Dazhou Li
- Abstract要約: ディープラーニングでは、勾配降下(SGD)とその運動量に基づく変種が最適化アルゴリズムで広く使われている。
既存の適応学習率の変種は収束を加速するが、しばしば一般化能力を犠牲にする。
本稿では,SGDの収束速度を一般化の損失なく高速化することを目的とした新しい最適化手法を提案する。
- 参考スコア(独自算出の注目度): 3.8065968624597324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In deep learning, stochastic gradient descent (SGD) and its momentum-based
variants are widely used in optimization algorithms, they usually face the
problem of slow convergence. Meanwhile, existing adaptive learning rate
optimizers accelerate convergence but often at the expense of generalization
ability. We demonstrate that the adaptive learning rate property impairs
generalization. To address this contradiction, we propose a novel optimization
method that aims to accelerate the convergence rate of SGD without loss of
generalization. This approach is based on the idea of reducing the variance of
the historical gradient, enhancing the first-order moment estimation of the SGD
by applying Wiener filtering theory, and introducing a time-varying adaptive
weight. Experimental results show that SGDF achieves a trade-off between
convergence and generalization compared to state-of-the-art optimizers.
- Abstract(参考訳): 深層学習において、確率勾配降下(sgd)とその運動量に基づく変種は、最適化アルゴリズムで広く使われているが、通常は緩やかに収束する問題に直面する。
一方、既存の適応学習速度最適化器は収束を加速するが、一般化能力を犠牲にすることが多い。
適応学習率特性が一般化を損なうことを示す。
そこで本研究では,sgdの収束速度を一般化の損失を伴わずに高速化する新しい最適化手法を提案する。
このアプローチは、歴史的勾配のばらつきを減らし、ウィーナーフィルタ理論を適用してSGDの1次モーメント推定を強化し、時変適応重みを導入するという考え方に基づいている。
実験の結果,sgdfは最先端オプティマイザと比較して収束と一般化のトレードオフを達成した。
関連論文リスト
- Score-Guided Intermediate Layer Optimization: Fast Langevin Mixing for
Inverse Problem [97.64313409741614]
ランダム重み付きDNNジェネレータを反転させるため,Langevinアルゴリズムの定常分布を高速に混合し,特徴付ける。
本稿では,事前学習した生成モデルの潜時空間における後部サンプリングを提案する。
論文 参考訳(メタデータ) (2022-06-18T03:47:37Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - AdaL: Adaptive Gradient Transformation Contributes to Convergences and
Generalizations [4.991328448898387]
元の勾配を変換したAdaLを提案する。
AdaLは初期の勾配を増幅することで収束を加速し、振動を減衰させ、後に勾配を縮めることで最適化を安定化する。
論文 参考訳(メタデータ) (2021-07-04T02:55:36Z) - Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to
Improve Generalization [89.7882166459412]
勾配雑音(SGN)は、ディープラーニングの暗黙の正規化として機能する。
深層学習を改善するためにランダムノイズを注入してSGNを人工的にシミュレートしようとした作品もある。
低計算コストでSGNをシミュレーションし、学習率やバッチサイズを変更することなく、PNM(Positive-Negative Momentum)アプローチを提案する。
論文 参考訳(メタデータ) (2021-03-31T16:08:06Z) - Gradient Descent Averaging and Primal-dual Averaging for Strongly Convex
Optimization [15.731908248435348]
強凸の場合の勾配降下平均化と主双進平均化アルゴリズムを開発する。
一次二重平均化は出力平均化の観点から最適な収束率を導出し、SC-PDAは最適な個々の収束を導出する。
SVMとディープラーニングモデルに関するいくつかの実験は、理論解析の正確性とアルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2020-12-29T01:40:30Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Variance Regularization for Accelerating Stochastic Optimization [14.545770519120898]
ミニバッチ勾配に隠れた統計情報を利用してランダムな誤りの蓄積を低減する普遍原理を提案する。
これは、ミニバッチのばらつきに応じて学習率を正規化することで達成される。
論文 参考訳(メタデータ) (2020-08-13T15:34:01Z) - When Does Preconditioning Help or Hurt Generalization? [74.25170084614098]
本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。
本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
論文 参考訳(メタデータ) (2020-06-18T17:57:26Z) - Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite
Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。
我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2020-06-12T09:39:47Z) - The Strength of Nesterov's Extrapolation in the Individual Convergence
of Nonsmooth Optimization [0.0]
ネステロフの外挿は、非滑らかな問題に対して勾配降下法の個人収束を最適にする強さを持つことを証明している。
提案手法は,設定の非滑らかな損失を伴って正規化学習タスクを解くためのアルゴリズムの拡張である。
本手法は,大規模な1-正規化ヒンジロス学習問題の解法として有効である。
論文 参考訳(メタデータ) (2020-06-08T03:35:41Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。