論文の概要: Theoretical Interpretation of Learned Step Size in Deep-Unfolded
Gradient Descent
- arxiv url: http://arxiv.org/abs/2001.05142v2
- Date: Thu, 30 Jan 2020 11:27:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 06:04:54.165030
- Title: Theoretical Interpretation of Learned Step Size in Deep-Unfolded
Gradient Descent
- Title(参考訳): 深部展開グラディエントDescenceにおける学習ステップサイズの理論的解釈
- Authors: Satoshi Takabe, Tadashi Wadayama
- Abstract要約: 深部展開勾配降下(DUGD)の学習ステップサイズに関する理論的解釈を提供する。
スペクトル半径の上限を最小化することは、チェビシェフのステップの列であるチェビシェフのステップに繋がることを示す。
また、チェビシェフステップは、パラメータや運動量項を学習することなく、一階法の収束率の低い境界を特定の極限で達成することを示す。
- 参考スコア(独自算出の注目度): 20.50873301895484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep unfolding is a promising deep-learning technique in which an iterative
algorithm is unrolled to a deep network architecture with trainable parameters.
In the case of gradient descent algorithms, as a result of the training
process, one often observes the acceleration of the convergence speed with
learned non-constant step size parameters whose behavior is not intuitive nor
interpretable from conventional theory. In this paper, we provide a theoretical
interpretation of the learned step size of deep-unfolded gradient descent
(DUGD). We first prove that the training process of DUGD reduces not only the
mean squared error loss but also the spectral radius related to the convergence
rate. Next, we show that minimizing the upper bound of the spectral radius
naturally leads to the Chebyshev step which is a sequence of the step size
based on Chebyshev polynomials. The numerical experiments confirm that the
Chebyshev steps qualitatively reproduce the learned step size parameters in
DUGD, which provides a plausible interpretation of the learned parameters.
Additionally, we show that the Chebyshev steps achieve the lower bound of the
convergence rate for the first-order method in a specific limit without
learning parameters or momentum terms.
- Abstract(参考訳): deep unfoldingは、反復アルゴリズムをトレーニング可能なパラメータを持つディープネットワークアーキテクチャに展開する、有望なディープラーニング技術である。
勾配降下アルゴリズムの場合、学習過程の結果として、従来の理論から直観的でも解釈可能でもない学習された非定常ステップサイズパラメータで収束速度の加速度を観測することが多い。
本稿では,Du-Unfolded gradient descent (DUGD) の学習ステップサイズを理論的に解釈する。
まず、DUGDのトレーニングプロセスは平均二乗誤差損失だけでなく、収束率に関連するスペクトル半径も減少させることを示した。
次に、スペクトル半径の上限を最小化することで、チェビシェフ多項式に基づくステップサイズの列であるチェビシェフステップを自然に導くことを示す。
数値実験により,chebyshevステップがdugdで学習したステップサイズパラメータを定性的に再現できることが確認された。
さらに,chebyshevステップは学習パラメータや運動量項を使わずに,一階法の収束率の下限を特定の限界で達成することを示す。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - One-Step Forward and Backtrack: Overcoming Zig-Zagging in Loss-Aware
Quantization Training [12.400950982075948]
重み量子化は、限られたリソースを持つエッジデバイスに展開するディープニューラルネットワークを圧縮する効果的な手法である。
従来の損失対応量子化法は、全精度勾配を置き換えるために量子化勾配を用いるのが一般的である。
本稿では、損失認識量子化のための1ステップの前進およびバックトラック手法を提案し、より正確で安定した勾配方向を得る。
論文 参考訳(メタデータ) (2024-01-30T05:42:54Z) - Low-rank extended Kalman filtering for online learning of neural
networks from streaming data [71.97861600347959]
非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。
この方法は拡張カルマンフィルタ (EKF) に基づいているが、新しい低ランク+斜角行列分解法を用いている。
変分推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
論文 参考訳(メタデータ) (2023-05-31T03:48:49Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Efficient Neural Network Training via Forward and Backward Propagation
Sparsification [26.301103403328312]
本研究では, 完全スパース前方・後方パスを用いた効率的なスパーストレーニング手法を提案する。
私たちのアルゴリズムは、トレーニングプロセスを最大で桁違いに高速化する上で、はるかに効果的です。
論文 参考訳(メタデータ) (2021-11-10T13:49:47Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Convergence Acceleration via Chebyshev Step: Plausible Interpretation of
Deep-Unfolded Gradient Descent [20.50873301895484]
収束加速は、深い展開の顕著な利点であるが、その理論的側面はまだ明らかにされていない。
深部アンフォールド勾配降下(DUGD)において,チェビシェフステップが学習したステップサイズパラメータを数値的に説明できることが示される。
研究の後半では、チェビシェフステップとチェビシェフ周期的逐次オーバーラックス(Chebyshev-PSOR)の理論を適用し、線形/非線形の固定点反復を加速する。
論文 参考訳(メタデータ) (2020-10-26T04:28:09Z) - Proximal Gradient Temporal Difference Learning: Stable Reinforcement
Learning with Polynomial Sample Complexity [40.73281056650241]
本稿では,真の勾配時間差学習アルゴリズムを設計・解析する原理的な方法として,近位勾配時間差学習を導入する。
本研究では, 従来の目的関数からではなく, 主目的関数から始めることによって, 勾配性TD強化学習法を公式に導出する方法を示す。
論文 参考訳(メタデータ) (2020-06-06T21:04:21Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。