論文の概要: Understanding and Detecting Convergence for Stochastic Gradient Descent
with Momentum
- arxiv url: http://arxiv.org/abs/2008.12224v1
- Date: Thu, 27 Aug 2020 16:24:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 07:17:58.259011
- Title: Understanding and Detecting Convergence for Stochastic Gradient Descent
with Momentum
- Title(参考訳): モーメントを用いた確率勾配の収束の理解と検出
- Authors: Jerry Chee and Ping Li
- Abstract要約: 本稿では,一定の学習率と運動量を有する勾配勾配について考察する。
連続勾配間の内積を用いた定常位相収束の統計的診断試験を構築した。
- 参考スコア(独自算出の注目度): 18.88380216480131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convergence detection of iterative stochastic optimization methods is of
great practical interest. This paper considers stochastic gradient descent
(SGD) with a constant learning rate and momentum. We show that there exists a
transient phase in which iterates move towards a region of interest, and a
stationary phase in which iterates remain bounded in that region around a
minimum point. We construct a statistical diagnostic test for convergence to
the stationary phase using the inner product between successive gradients and
demonstrate that the proposed diagnostic works well. We theoretically and
empirically characterize how momentum can affect the test statistic of the
diagnostic, and how the test statistic captures a relatively sparse signal
within the gradients in convergence. Finally, we demonstrate an application to
automatically tune the learning rate by reducing it each time stationarity is
detected, and show the procedure is robust to mis-specified initial rates.
- Abstract(参考訳): 反復確率最適化法の収束検出は非常に実用的である。
本稿では,一定の学習率と運動量を有する確率勾配降下(SGD)について考察する。
我々は、反復が興味のある領域に向かって移動する過渡的な位相と、反復が最小点付近でその領域に束縛される定常相が存在することを示す。
我々は,連続勾配間の内積を用いて定常位相に収束する統計的診断テストを構築し,提案する診断が良好であることを実証する。
我々は,モーメントが診断の試験統計にどのような影響を及ぼすか,そして,実験統計が収束の勾配の中で比較的スパースな信号を捕捉するかを理論的かつ実証的に特徴付ける。
最後に、定常度を検出するたびに学習率を自動的に調整するアプリケーションを示し、その手順が不特定初期レートに対して堅牢であることを示す。
関連論文リスト
- One-step corrected projected stochastic gradient descent for statistical estimation [49.1574468325115]
これは、Fisherスコアリングアルゴリズムの1ステップで修正されたログ様関数の予測勾配勾配に基づいている。
理論およびシミュレーションにより、平均勾配勾配や適応勾配勾配の通常の勾配勾配の代替として興味深いものであることを示す。
論文 参考訳(メタデータ) (2023-06-09T13:43:07Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - On Almost Sure Convergence Rates of Stochastic Gradient Methods [11.367487348673793]
勾配法で得られるほぼ確実な収束速度が、可能な限り最適な収束速度に任意に近づくことを示す。
非客観的関数に対しては、二乗勾配ノルムの重み付き平均がほぼ確実に収束するだけでなく、ほぼ確実に0となることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:30Z) - A Continuous-time Stochastic Gradient Descent Method for Continuous Data [0.0]
本研究では,連続データを用いた最適化問題に対する勾配降下アルゴリズムの連続時間変種について検討する。
連続データ空間における複数のサンプリングパターンについて検討し、実行時にデータシミュレートやストリームを可能にする。
ノイズの多い関数データと物理インフォームドニューラルネットワークの回帰問題における勾配過程の適用性について考察する。
論文 参考訳(メタデータ) (2021-12-07T15:09:24Z) - Accelerated Almost-Sure Convergence Rates for Nonconvex Stochastic
Gradient Descent using Stochastic Learning Rates [0.0]
本稿では、グラディエント・ダイアンスの勾配空間収束率のほぼ全周収束率を用いて、大規模最適化問題を解く。
特に、その学習速度は乗算学習率を備えている。
論文 参考訳(メタデータ) (2021-10-25T04:27:35Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - On Convergence-Diagnostic based Step Sizes for Stochastic Gradient
Descent [24.042107117994046]
定常的なステップサイズのグラディエントDescentは2つの位相を示す: 反復する過渡的な位相は最適に向かって急速に進行し、続いて、反復する位相は最適点の周りで振動する。
我々は, この遷移を効率的に検出し, ステップサイズを適切に減少させることで, 収束速度が速くなることを示した。
論文 参考訳(メタデータ) (2020-07-01T14:58:01Z) - Analysis of Stochastic Gradient Descent in Continuous Time [0.0]
勾配降下の連続時間表現として勾配過程を導入する。
学習速度が0に近づくと,勾配流に弱収束することを示す。
この場合、過程は、全対象関数の大域的最小に集中する点質量に弱収束する。
論文 参考訳(メタデータ) (2020-04-15T16:04:41Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。