論文の概要: Convergence Acceleration via Chebyshev Step: Plausible Interpretation of
Deep-Unfolded Gradient Descent
- arxiv url: http://arxiv.org/abs/2010.13335v1
- Date: Mon, 26 Oct 2020 04:28:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 18:47:35.320425
- Title: Convergence Acceleration via Chebyshev Step: Plausible Interpretation of
Deep-Unfolded Gradient Descent
- Title(参考訳): チェビシェフステップによる収束加速:深部展開勾配の可塑性解釈
- Authors: Satoshi Takabe and Tadashi Wadayama
- Abstract要約: 収束加速は、深い展開の顕著な利点であるが、その理論的側面はまだ明らかにされていない。
深部アンフォールド勾配降下(DUGD)において,チェビシェフステップが学習したステップサイズパラメータを数値的に説明できることが示される。
研究の後半では、チェビシェフステップとチェビシェフ周期的逐次オーバーラックス(Chebyshev-PSOR)の理論を適用し、線形/非線形の固定点反復を加速する。
- 参考スコア(独自算出の注目度): 20.50873301895484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep unfolding is a promising deep-learning technique, whose network
architecture is based on expanding the recursive structure of existing
iterative algorithms. Although convergence acceleration is a remarkable
advantage of deep unfolding, its theoretical aspects have not been revealed
yet. The first half of this study details the theoretical analysis of the
convergence acceleration in deep-unfolded gradient descent (DUGD) whose
trainable parameters are step sizes. We propose a plausible interpretation of
the learned step-size parameters in DUGD by introducing the principle of
Chebyshev steps derived from Chebyshev polynomials. The use of Chebyshev steps
in gradient descent (GD) enables us to bound the spectral radius of a matrix
governing the convergence speed of GD, leading to a tight upper bound on the
convergence rate. The convergence rate of GD using Chebyshev steps is shown to
be asymptotically optimal, although it has no momentum terms. We also show that
Chebyshev steps numerically explain the learned step-size parameters in DUGD
well. In the second half of the study, %we apply the theory of Chebyshev steps
and Chebyshev-periodical successive over-relaxation (Chebyshev-PSOR) is
proposed for accelerating linear/nonlinear fixed-point iterations. Theoretical
analysis and numerical experiments indicate that Chebyshev-PSOR exhibits
significantly faster convergence for various examples such as Jacobi method and
proximal gradient methods.
- Abstract(参考訳): deep unfoldingは有望なディープラーニング技術であり、ネットワークアーキテクチャは既存の反復アルゴリズムの再帰的構造の拡張に基づいている。
収束加速は深い展開の顕著な利点であるが、その理論的側面はまだ明らかになっていない。
本研究の前半は、トレーニング可能なパラメータがステップサイズであるDu-Unfolded gradient descent (DUGD)における収束加速度の理論解析について詳述した。
本研究では,chebyshev 多項式から導かれる chebyshev ステップの原理を導入することにより,dugd で学習されたステップサイズパラメータの正当な解釈を提案する。
勾配降下(GD)におけるチェビシェフのステップを用いることで、GDの収束速度を管理する行列のスペクトル半径を束縛することができ、収束速度に強い上限を与えることができる。
チェビシェフステップを用いたgdの収束速度は漸近的に最適であるが、運動量項は持たない。
また、Chebyshevのステップは、DUGDの学習したステップサイズパラメータを数値的に説明できることを示す。
本研究の後半では,chebyshevステップの理論とchebyshev周期的逐次オーバーリラクシエーション(chebyshev-psor)を線形・非線形不動点反復の促進に適用する。
理論的解析と数値実験により、チェビシェフPSORはヤコビ法や近位勾配法などの様々な例において、はるかに高速な収束を示すことが示された。
関連論文リスト
- Convergence rates of stochastic gradient method with independent sequences of step-size and momentum weight [1.4141453107129398]
我々はPolyakの加速度を用いたプログラミングを用いて収束速度を解析する。
収束速度は、ステップサイズおよび運動量重みにおいて指数的に記述できることを示す。
論文 参考訳(メタデータ) (2024-07-31T04:25:39Z) - Faster Convergence of Stochastic Accelerated Gradient Descent under Interpolation [51.248784084461334]
我々はNesterov加速度アンダーホ条件の一般化版に対する新しい収束率を証明した。
本分析により, 従来の研究に比べて, 強い成長定数への依存度を$$$から$sqrt$に下げることができた。
論文 参考訳(メタデータ) (2024-04-03T00:41:19Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Curvature-Independent Last-Iterate Convergence for Games on Riemannian
Manifolds [77.4346324549323]
本研究では, 多様体の曲率に依存しないステップサイズが, 曲率非依存かつ直線的最終点収束率を達成することを示す。
我々の知る限りでは、曲率非依存率や/または最終点収束の可能性はこれまでに検討されていない。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - Formal guarantees for heuristic optimization algorithms used in machine
learning [6.978625807687497]
グラディエント・Descent(SGD)とその変種は、大規模最適化機械学習(ML)問題において支配的な手法となっている。
本稿では,いくつかの凸最適化手法の形式的保証と改良アルゴリズムの提案を行う。
論文 参考訳(メタデータ) (2022-07-31T19:41:22Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Acceleration Methods [57.202881673406324]
まず2次最適化問題を用いて加速法を2つ導入する。
我々は、ネステロフの精巧な研究から始まる運動量法を詳細に論じる。
我々は、ほぼ最適な収束率に達するための一連の簡単な手法である再起動スキームを議論することで結論付ける。
論文 参考訳(メタデータ) (2021-01-23T17:58:25Z) - A Unified Analysis of First-Order Methods for Smooth Games via Integral
Quadratic Constraints [10.578409461429626]
本研究では、滑らかで強可変なゲームやイテレーションのための一階法に積分二次的制約理論を適用する。
我々は、負の運動量法(NM)に対して、既知の下界と一致する複雑性$mathcalO(kappa1.5)$で、初めて大域収束率を与える。
一段階のメモリを持つアルゴリズムでは,バッチ毎に1回だけ勾配を問合せすれば,高速化は不可能であることを示す。
論文 参考訳(メタデータ) (2020-09-23T20:02:00Z) - Proximal Gradient Temporal Difference Learning: Stable Reinforcement
Learning with Polynomial Sample Complexity [40.73281056650241]
本稿では,真の勾配時間差学習アルゴリズムを設計・解析する原理的な方法として,近位勾配時間差学習を導入する。
本研究では, 従来の目的関数からではなく, 主目的関数から始めることによって, 勾配性TD強化学習法を公式に導出する方法を示す。
論文 参考訳(メタデータ) (2020-06-06T21:04:21Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Theoretical Interpretation of Learned Step Size in Deep-Unfolded
Gradient Descent [20.50873301895484]
深部展開勾配降下(DUGD)の学習ステップサイズに関する理論的解釈を提供する。
スペクトル半径の上限を最小化することは、チェビシェフのステップの列であるチェビシェフのステップに繋がることを示す。
また、チェビシェフステップは、パラメータや運動量項を学習することなく、一階法の収束率の低い境界を特定の極限で達成することを示す。
論文 参考訳(メタデータ) (2020-01-15T05:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。