論文の概要: Efficiency Ordering of Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2209.07446v1
- Date: Thu, 15 Sep 2022 16:50:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 13:16:35.101382
- Title: Efficiency Ordering of Stochastic Gradient Descent
- Title(参考訳): 確率勾配降下の効率秩序化
- Authors: Jie Hu, Vishwaraj Doshi, Do Young Eun
- Abstract要約: 我々は、任意のグラフ上のノイズやランダムウォークを含む一般的なサンプリングシーケンスによって駆動される勾配降下(SGD)アルゴリズムについて検討する。
我々は、マルコフ・チェイン・モンテカルロサンプリング器の性能を比較するためのよく分析されたツールである「効率順序付け」の概念を採用している。
- 参考スコア(独自算出の注目度): 9.634481296779057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the stochastic gradient descent (SGD) algorithm driven by a
general stochastic sequence, including i.i.d noise and random walk on an
arbitrary graph, among others; and analyze it in the asymptotic sense.
Specifically, we employ the notion of `efficiency ordering', a well-analyzed
tool for comparing the performance of Markov Chain Monte Carlo (MCMC) samplers,
for SGD algorithms in the form of Loewner ordering of covariance matrices
associated with the scaled iterate errors in the long term. Using this
ordering, we show that input sequences that are more efficient for MCMC
sampling also lead to smaller covariance of the errors for SGD algorithms in
the limit. This also suggests that an arbitrarily weighted MSE of SGD iterates
in the limit becomes smaller when driven by more efficient chains. Our finding
is of particular interest in applications such as decentralized optimization
and swarm learning, where SGD is implemented in a random walk fashion on the
underlying communication graph for cost issues and/or data privacy. We
demonstrate how certain non-Markovian processes, for which typical mixing-time
based non-asymptotic bounds are intractable, can outperform their Markovian
counterparts in the sense of efficiency ordering for SGD. We show the utility
of our method by applying it to gradient descent with shuffling and mini-batch
gradient descent, reaffirming key results from existing literature under a
unified framework. Empirically, we also observe efficiency ordering for
variants of SGD such as accelerated SGD and Adam, open up the possibility of
extending our notion of efficiency ordering to a broader family of stochastic
optimization algorithms.
- Abstract(参考訳): 確率勾配降下(sgd)アルゴリズムは,任意のグラフ上のノイズやランダムウォークを含む一般確率列によって駆動され,漸近的に解析される。
具体的には,sgdアルゴリズムにおけるマルコフ連鎖モンテカルロ(mcmc)サンプラーの性能を比較するためのよく分析されたツールである「効率順序」の概念を,長期の反復誤差のスケールに伴う共分散行列のルーナー順序という形で採用する。
この順序付けを用いて,MCMCサンプリングにおいてより効率的である入力シーケンスが,その制限下でのSGDアルゴリズムの誤差の共分散を小さくすることを示した。
これはまた、より効率的な連鎖によって駆動されるとき、SGDの任意の重み付けされたMSEが制限を繰り返すことが示唆される。
我々の発見は、分散最適化やSwarm Learningのようなアプリケーションにおいて特に関心があり、SGDはコスト問題やデータプライバシに関する基礎となる通信グラフ上でランダムなウォーク方式で実装されている。
典型的な混合時間に基づく非漸近境界が難解であるような非マルコフ過程が、sgdの効率順序の点でマルコフ過程よりも優れていることを示す。
本手法の有効性を,シャッフルとミニバッチの勾配勾配による勾配降下に適用し,既存の文献から得られた重要な結果を再確認する。
経験的に、加速SGDやAdamのようなSGDの変種に対する効率順序付けも観察し、より広範な確率最適化アルゴリズムの族に効率順序付けの概念を拡張する可能性を広げる。
関連論文リスト
- Robust Stochastic Optimization via Gradient Quantile Clipping [6.2844649973308835]
グラディエントDescent(SGD)のための量子クリッピング戦略を導入する。
通常のクリッピングチェーンとして、グラデーション・ニュー・アウトリージを使用します。
本稿では,Huberiles を用いたアルゴリズムの実装を提案する。
論文 参考訳(メタデータ) (2023-09-29T15:24:48Z) - Optimization of Annealed Importance Sampling Hyperparameters [77.34726150561087]
Annealed Importance Smpling (AIS) は、深層生成モデルの難易度を推定するために使われる一般的なアルゴリズムである。
本稿では、フレキシブルな中間分布を持つパラメータAISプロセスを提案し、サンプリングに少ないステップを使用するようにブリッジング分布を最適化する。
我々は, 最適化AISの性能評価を行い, 深部生成モデルの限界推定を行い, 他の推定値と比較した。
論文 参考訳(メタデータ) (2022-09-27T07:58:25Z) - Non Asymptotic Bounds for Optimization via Online Multiplicative
Stochastic Gradient Descent [0.0]
グラディエントDescent(SGD)の勾配雑音は,その特性において重要な役割を担っていると考えられている。
ミニバッチによるSGDの平均と共分散構造を持つ雑音クラスは、同様の特性を持つことを示す。
また,M-SGDアルゴリズムの強い凸状態における収束の限界を定めている。
論文 参考訳(メタデータ) (2021-12-14T02:25:43Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - Stochastic Reweighted Gradient Descent [4.355567556995855]
SRG(stochastic reweighted gradient)と呼ばれる重要サンプリングに基づくアルゴリズムを提案する。
我々は、提案手法の時間とメモリオーバーヘッドに特に注意を払っています。
我々はこの発見を裏付ける実験結果を示す。
論文 参考訳(メタデータ) (2021-03-23T04:09:43Z) - An adaptive Hessian approximated stochastic gradient MCMC method [12.93317525451798]
後方からのサンプリング中に局所的幾何情報を組み込む適応型ヘッセン近似勾配MCMC法を提案する。
我々は,ネットワークの空間性を高めるために,等級に基づく重み付け法を採用する。
論文 参考訳(メタデータ) (2020-10-03T16:22:15Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z) - Improving Sampling Accuracy of Stochastic Gradient MCMC Methods via
Non-uniform Subsampling of Gradients [54.90670513852325]
サンプリング精度を向上させるための一様でないサブサンプリング手法を提案する。
EWSGは、一様勾配MCMC法がバッチ勾配MCMC法の統計的挙動を模倣するように設計されている。
EWSGの実践的な実装では、データインデックス上のMetropolis-Hastingsチェーンを介して、一様でないサブサンプリングを効率的に行う。
論文 参考訳(メタデータ) (2020-02-20T18:56:18Z) - Stochastic Approximate Gradient Descent via the Langevin Algorithm [11.36635610546803]
本研究では,不偏勾配が自明に得られない場合の勾配勾配の代替として,近似勾配勾配(SAGD)を導入する。
SAGDは,予測最大化アルゴリズムや変分オートエンコーダといった,一般的な統計的および機械学習問題において,実験的によく機能することを示す。
論文 参考訳(メタデータ) (2020-02-13T14:29:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。