論文の概要: Stochasticity helps to navigate rough landscapes: comparing
gradient-descent-based algorithms in the phase retrieval problem
- arxiv url: http://arxiv.org/abs/2103.04902v1
- Date: Mon, 8 Mar 2021 17:06:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:46:38.271586
- Title: Stochasticity helps to navigate rough landscapes: comparing
gradient-descent-based algorithms in the phase retrieval problem
- Title(参考訳): 確率性は荒地をナビゲートする:位相探索問題における勾配差に基づくアルゴリズムの比較
- Authors: Francesca Mignacco, Pierfrancesco Urbani, Lenka Zdeborov\'a
- Abstract要約: 本研究では,動的降下,永続勾配,ランジュバン景観降下などの解析ベースアルゴリズムについて検討する。
統計的軌道からの統計場理論をアルゴリズムにフルタイムで適用し、開始時と大規模なシステムサイズで適用します。
- 参考スコア(独自算出の注目度): 8.164433158925593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we investigate how gradient-based algorithms such as gradient
descent, (multi-pass) stochastic gradient descent, its persistent variant, and
the Langevin algorithm navigate non-convex losslandscapes and which of them is
able to reach the best generalization error at limited sample complexity. We
consider the loss landscape of the high-dimensional phase retrieval problem as
a prototypical highly non-convex example. We observe that for phase retrieval
the stochastic variants of gradient descent are able to reach perfect
generalization for regions of control parameters where the gradient descent
algorithm is not. We apply dynamical mean-field theory from statistical physics
to characterize analytically the full trajectories of these algorithms in their
continuous-time limit, with a warm start, and for large system sizes. We
further unveil several intriguing properties of the landscape and the
algorithms such as that the gradient descent can obtain better generalization
properties from less informed initializations.
- Abstract(参考訳): 本稿では,勾配降下, (複数パス) 確率的勾配降下, 持続的変種, ランジュバンアルゴリズムなどの勾配に基づくアルゴリズムが非凸ロスランドスケープをナビゲートし, サンプル複雑性の制限により最適一般化誤差を到達できるかを検討する。
我々は,高次元位相検索問題の損失景観を,非常に非凸な原型的例と考える。
位相探索において、勾配降下アルゴリズムが存在しない制御パラメータの領域に対して、勾配降下の確率的変種が完全な一般化に達することを観察する。
統計物理学からの動的平均場理論を応用し, 連続時間限界, ウォームスタート, 大規模システムサイズにおいて, これらのアルゴリズムの完全な軌道を解析的に特徴付ける。
さらに,ランドスケープの興味をそそる性質や,より知識の少ない初期化から勾配降下がより良い一般化特性を得ることができるアルゴリズムについても明らかにする。
関連論文リスト
- Forward Gradient-Based Frank-Wolfe Optimization for Memory Efficient Deep Neural Network Training [0.0]
本稿では,よく知られたFrank-Wolfeアルゴリズムの性能解析に焦点をあてる。
提案アルゴリズムは, 最適解に収束し, サブ線形収束率を示す。
対照的に、標準的なフランク=ウルフアルゴリズムは、プロジェクテッド・フォワード・グラディエントへのアクセスを提供すると、最適解に収束しない。
論文 参考訳(メタデータ) (2024-03-19T07:25:36Z) - One-step corrected projected stochastic gradient descent for statistical estimation [49.1574468325115]
これは、Fisherスコアリングアルゴリズムの1ステップで修正されたログ様関数の予測勾配勾配に基づいている。
理論およびシミュレーションにより、平均勾配勾配や適応勾配勾配の通常の勾配勾配の代替として興味深いものであることを示す。
論文 参考訳(メタデータ) (2023-06-09T13:43:07Z) - Non asymptotic analysis of Adaptive stochastic gradient algorithms and
applications [0.0]
本論文は, 強凸対象に対する適応勾配アルゴリズムの非解析に係わるものである。
すべての理論的結果は、AdagradアルゴリズムとNewtonアルゴリズムの両方に対する線形回帰および正規化一般化線形モデルに適用される。
論文 参考訳(メタデータ) (2023-03-01T07:36:03Z) - Stability vs Implicit Bias of Gradient Methods on Separable Data and
Beyond [33.593203156666746]
分離線形分類に適用された非正規化勾配に基づく学習手順の一般化特性に着目する。
この一般化についてさらに統一的な説明をし、実現可能性と自己有界性(self-boundedness)と呼ぶ。
これらのケースのいくつかでは、文献における既存の一般化誤差境界に対して、我々の境界は著しく改善される。
論文 参考訳(メタデータ) (2022-02-27T19:56:36Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - Random-reshuffled SARAH does not need a full gradient computations [61.85897464405715]
StochAstic Recursive grAdientritHm (SARAH)アルゴリズムは、Gradient Descent (SGD)アルゴリズムのばらつき低減版である。
本稿では,完全勾配の必要性を除去する。
集約された勾配は、SARAHアルゴリズムの完全な勾配の見積もりとなる。
論文 参考訳(メタデータ) (2021-11-26T06:00:44Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Dynamical mean-field theory for stochastic gradient descent in Gaussian
mixture classification [25.898873960635534]
高次元景観を分類する単一層ニューラルネットワークにおける勾配降下(SGD)の閉学習ダイナミクスを解析する。
連続次元勾配流に拡張可能なプロトタイププロセスを定義する。
フルバッチ限界では、標準勾配流を回復する。
論文 参考訳(メタデータ) (2020-06-10T22:49:41Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。