Fugu-MT 論文翻訳(概要): Signal Processing Meets SGD: From Momentum to Filter

論文の概要: Signal Processing Meets SGD: From Momentum to Filter

arxiv url: http://arxiv.org/abs/2311.02818v5
Date: Wed, 22 May 2024 09:11:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-26 20:23:38.023571
Title: Signal Processing Meets SGD: From Momentum to Filter
Title（参考訳）: 信号処理とSGD: モーメントからフィルタへ
Authors: Zhipeng Yao, Guiyuan Fu, Ying Li, Yu Zhang, Dazhou Li, Rui Yu,
Abstract要約: ディープラーニングでは、勾配降下(SGD)とその運動量に基づく変種が最適化に広く利用されている。本稿では,一般化を犠牲にすることなく,SGDの収束を高速化する新しい最適化手法を提案する。
参考スコア（独自算出の注目度）: 6.751292200515353
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In deep learning, stochastic gradient descent (SGD) and its momentum-based variants are widely used for optimization, but they typically suffer from slow convergence. Conversely, existing adaptive learning rate optimizers speed up convergence but often compromise generalization. To resolve this issue, we propose a novel optimization method designed to accelerate SGD's convergence without sacrificing generalization. Our approach reduces the variance of the historical gradient, improves first-order moment estimation of SGD by applying Wiener filter theory, and introduces a time-varying adaptive gain. Empirical results demonstrate that SGDF (SGD with Filter) effectively balances convergence and generalization compared to state-of-the-art optimizers.
Abstract（参考訳）: 深層学習において、確率勾配降下(SGD)とその運動量に基づく変種は最適化に広く用いられているが、典型的には収束が遅い。逆に、既存の適応学習率最適化器は収束を高速化するが、しばしば一般化を損なう。そこで本研究では,一般化を犠牲にすることなく,SGDの収束を高速化する新たな最適化手法を提案する。提案手法は, 歴史的勾配のばらつきを低減し, Wienerフィルタ理論を適用してSGDの1次モーメント推定を改善し, 時変適応ゲインを導入する。実験結果から,SGDF (SGD with Filter) はコンバージェンスと一般化のバランスを,最先端のオプティマイザと比較して効果的に表している。

関連論文リスト

On the Performance Analysis of Momentum Method: A Frequency Domain Perspective [9.566967680633615]
本稿では,モーメント法を時間変動フィルタとして解釈する周波数領域解析フレームワークを提案する。我々の実験はこの視点を支持し、関連するメカニズムをより深く理解する。
論文参考訳（メタデータ） (2024-11-29T12:56:43Z)
Faster Convergence of Stochastic Accelerated Gradient Descent under Interpolation [51.248784084461334]
我々はNesterov加速度アンダーホ条件の一般化版に対する新しい収束率を証明した。本分析により, 従来の研究に比べて, 強い成長定数への依存度を$$$から$sqrt$に下げることができた。
論文参考訳（メタデータ） (2024-04-03T00:41:19Z)
Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文参考訳（メタデータ） (2024-03-11T09:10:37Z)
Achieving Margin Maximization Exponentially Fast via Progressive Norm Rescaling [6.8271468231014145]
線形分離可能なデータの分類における勾配に基づくアルゴリズムによるマージン最大化バイアスについて検討する。我々は、プログレッシブ・リスケーリング・グラディエント(PRGD)と呼ばれる新しいアルゴリズムを提案し、PRGDがエム指数率でマージンを最大化できることを示す。 PRGDはまた、線形に分離できないデータセットやディープニューラルネットワークに適用する際の一般化性能の向上を約束している。
論文参考訳（メタデータ） (2023-11-24T10:07:10Z)
Model-Based Reparameterization Policy Gradient Methods: Theory and Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文参考訳（メタデータ） (2023-10-30T18:43:21Z)
Optimization Landscape of Policy Gradient Methods for Discrete-time Static Output Feedback [22.21598324895312]
本稿では,静的な出力フィードバック制御に適用した場合に,ポリシー勾配法に固有の最適化環境を解析する。 3つの政策勾配法に対する定常点への収束(およびほぼ次元自由率)に関する新しい知見を導出する。我々は,バニラポリシー勾配法が,そのようなミニマに近づいた場合,局所最小マに対して線形収束を示すことを示す。
論文参考訳（メタデータ） (2023-10-29T14:25:57Z)
Score-Guided Intermediate Layer Optimization: Fast Langevin Mixing for Inverse Problem [97.64313409741614]
ランダム重み付きDNNジェネレータを反転させるため,Langevinアルゴリズムの定常分布を高速に混合し,特徴付ける。本稿では,事前学習した生成モデルの潜時空間における後部サンプリングを提案する。
論文参考訳（メタデータ） (2022-06-18T03:47:37Z)
Differentiable Annealed Importance Sampling and the Perils of Gradient Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文参考訳（メタデータ） (2021-07-21T17:10:14Z)
Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。 DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文参考訳（メタデータ） (2021-07-06T21:59:49Z)
AdaL: Adaptive Gradient Transformation Contributes to Convergences and Generalizations [4.991328448898387]
元の勾配を変換したAdaLを提案する。 AdaLは初期の勾配を増幅することで収束を加速し、振動を減衰させ、後に勾配を縮めることで最適化を安定化する。
論文参考訳（メタデータ） (2021-07-04T02:55:36Z)
Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to Improve Generalization [89.7882166459412]
勾配雑音(SGN)は、ディープラーニングの暗黙の正規化として機能する。深層学習を改善するためにランダムノイズを注入してSGNを人工的にシミュレートしようとした作品もある。低計算コストでSGNをシミュレーションし、学習率やバッチサイズを変更することなく、PNM(Positive-Negative Momentum)アプローチを提案する。
論文参考訳（メタデータ） (2021-03-31T16:08:06Z)
The Role of Momentum Parameters in the Optimal Convergence of Adaptive Polyak's Heavy-ball Methods [12.93796690939018]
適応型Polyak's Heavy-ball (HB) 法は最適な個人収束率を$O(frac1sqrtt)$とする。新しい解析では,hb運動量とその時間的変動が凸最適化の高速化にどのように役立つかを示す。
論文参考訳（メタデータ） (2021-02-15T02:57:14Z)
Stochastic Gradient Variance Reduction by Solving a Filtering Problem [0.951828574518325]
ディープニューラルネットワーク(DNN)は一般的に最適化された勾配降下(SGD)を用いる試料を用いた勾配推定はノイズが多く信頼性が低い傾向にあり, 勾配のばらつきが大きく, 収束不良が生じる。勾配を一貫した推定を行う効率的な最適化アルゴリズムである textbfFilter Gradient Decent (FGD) を提案する。
論文参考訳（メタデータ） (2020-12-22T23:48:42Z)
Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文参考訳（メタデータ） (2020-12-21T17:29:58Z)
Convergence Analysis of Homotopy-SGD for non-convex optimization [43.71213126039448]
ホモトピー法とSGDを組み合わせた一階述語アルゴリズム、Gradienty-Stoch Descent (H-SGD)を提案する。いくつかの仮定の下で、提案した問題の理論的解析を行う。実験の結果,H-SGDはSGDより優れていた。
論文参考訳（メタデータ） (2020-11-20T09:50:40Z)
Channel-Directed Gradients for Optimization of Convolutional Neural Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文参考訳（メタデータ） (2020-08-25T00:44:09Z)
Obtaining Adjustable Regularization for Free via Iterate Averaging [43.75491612671571]
最適化のための正規化は、機械学習の過度な適合を避けるための重要なテクニックである。我々は、任意の強凸かつ滑らかな対象関数上のSGDの繰り返しを正規化された関数に変換する平均化スキームを確立する。提案手法は,高速化および事前条件最適化手法にも利用できる。
論文参考訳（メタデータ） (2020-08-15T15:28:05Z)
When Does Preconditioning Help or Hurt Generalization? [74.25170084614098]
本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
論文参考訳（メタデータ） (2020-06-18T17:57:26Z)
Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文参考訳（メタデータ） (2020-06-12T09:39:47Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文参考訳（メタデータ） (2020-04-11T03:50:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。