論文の概要: Stochastic Gradient Descent outperforms Gradient Descent in recovering a
high-dimensional signal in a glassy energy landscape
- arxiv url: http://arxiv.org/abs/2309.04788v2
- Date: Mon, 18 Dec 2023 09:04:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 23:12:41.381695
- Title: Stochastic Gradient Descent outperforms Gradient Descent in recovering a
high-dimensional signal in a glassy energy landscape
- Title(参考訳): ガラス状エネルギー景観における高次元信号の回復における確率的グラディエントDescentのグラディエントDescent
- Authors: Persia Jana Kamali, Pierfrancesco Urbani
- Abstract要約: Gradient Descent (SGD) は、ニューラルネットワークのトレーニングに広く使われている平衡外アルゴリズムである。
SGD は GD よりも十分小さいバッチサイズで性能が優れていることを示す。
- 参考スコア(独自算出の注目度): 4.73194777046253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic Gradient Descent (SGD) is an out-of-equilibrium algorithm used
extensively to train artificial neural networks. However very little is known
on to what extent SGD is crucial for to the success of this technology and, in
particular, how much it is effective in optimizing high-dimensional non-convex
cost functions as compared to other optimization algorithms such as Gradient
Descent (GD). In this work we leverage dynamical mean field theory to benchmark
its performances in the high-dimensional limit. To do that, we consider the
problem of recovering a hidden high-dimensional non-linearly encrypted signal,
a prototype high-dimensional non-convex hard optimization problem. We compare
the performances of SGD to GD and we show that SGD largely outperforms GD for
sufficiently small batch sizes. In particular, a power law fit of the
relaxation time of these algorithms shows that the recovery threshold for SGD
with small batch size is smaller than the corresponding one of GD.
- Abstract(参考訳): Stochastic Gradient Descent (SGD) は、ニューラルネットワークのトレーニングに広く使われている非平衡アルゴリズムである。
しかし、SGDがこの技術の成功にどの程度重要なのか、特に高次元の非凸コスト関数をグラディエント・ディクセント(GD)のような他の最適化アルゴリズムと比較して最適化するのにどの程度有効かは、ほとんど分かっていない。
この研究では、動的平均場理論を利用して、その性能を高次元極限でベンチマークする。
そこで本研究では, 隠れた高次元非線形暗号信号, プロトタイプの高次元非凸ハード最適化問題について考察する。
我々は,SGDとGDの性能を比較し,SGDが十分に小さなバッチサイズでGDより優れていることを示す。
特に、これらのアルゴリズムの緩和時間の電力法則は、バッチサイズが小さいSGDの回復しきい値が対応するGDよりも小さいことを示す。
関連論文リスト
- The Optimality of (Accelerated) SGD for High-Dimensional Quadratic Optimization [4.7256945641654164]
勾配降下(SGD)は機械学習、特にニューラルネットワークトレーニングにおいて広く使われているアルゴリズムである。
正準2次最適化や線形回帰のSGDに関する最近の研究は、適切な高次元設定で十分に一般化できることを示している。
本稿では,ステップサイズスケジュールと運動量指数の2つの基本成分を持つSGDについて検討する。
論文 参考訳(メタデータ) (2024-09-15T14:20:03Z) - Massive Dimensions Reduction and Hybridization with Meta-heuristics in Deep Learning [0.24578723416255746]
ヒストグラムに基づく微分進化(HBDE)は、パラメータを最適化するために勾配に基づくアルゴリズムと勾配のないアルゴリズムをハイブリダイズする。
HBDEは、CIFAR-10とCIFAR-100データセットに基づいて評価されたベースライン勾配と親勾配のないDEMアルゴリズムより優れている。
論文 参考訳(メタデータ) (2024-08-13T20:28:20Z) - LD-GAN: Low-Dimensional Generative Adversarial Network for Spectral
Image Generation with Variance Regularization [72.4394510913927]
ディープラーニング法はスペクトル画像(SI)計算タスクの最先端技術である。
GANは、データ分散から学習およびサンプリングすることで、多様な拡張を可能にする。
この種のデータの高次元性は、GANトレーニングの収束を妨げるため、GANベースのSI生成は困難である。
本稿では, オートエンコーダ訓練における低次元表現分散を制御し, GANで生成されたサンプルの多様性を高めるための統計正則化を提案する。
論文 参考訳(メタデータ) (2023-04-29T00:25:02Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Genetically Modified Wolf Optimization with Stochastic Gradient Descent
for Optimising Deep Neural Networks [0.0]
本研究の目的は、人口ベースメタヒューリスティックアルゴリズムを用いて、ニューラルネットワーク(NN)重み付けを最適化するための代替アプローチを分析することである。
Grey Wolf (GWO) と Genetic Modified Algorithms (GA) のハイブリッドをグラディエント・Descent (SGD) と組み合わせて検討した。
このアルゴリズムは、高次元性の問題にも対処しながら、エクスプロイトと探索の組み合わせを可能にする。
論文 参考訳(メタデータ) (2023-01-21T13:22:09Z) - DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over
Graphs [54.08445874064361]
本稿では,分散環境下での正規化された分散ロバストな学習問題を解くことを提案する。
Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな問題に還元することができる。
提案アルゴリズムは, 最低分布検定精度を最大10%向上できることを示す。
論文 参考訳(メタデータ) (2022-08-29T18:01:42Z) - Adaptive Step-Size Methods for Compressed SGD [15.32764898836189]
分散および分散化ネットワークにおける通信ボトルネックに対処するために,圧縮分散型グラディエント Descent (SGD) アルゴリズムが最近提案されている。
我々は、圧縮データセットの順序収束率を確立するために使用するスケーリングステップを導入する。
実世界のデータセットに対する実験結果を示す。
論文 参考訳(メタデータ) (2022-07-20T17:20:58Z) - Low-Precision Stochastic Gradient Langevin Dynamics [70.69923368584588]
本稿では,低精度のグラジエントランゲヴィンダイナミクスを初めて研究し,性能を犠牲にすることなくコストを大幅に削減できることを示した。
本研究では,各更新ステップの分散を保存したSGLDの新しい量子化関数を開発する。
我々は,低精度のSGLDが,様々なディープラーニングタスクにおいて8ビットしか持たない完全精度のSGLDに匹敵する性能を実現することを実証した。
論文 参考訳(メタデータ) (2022-06-20T17:25:41Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Stochastic Runge-Kutta methods and adaptive SGD-G2 stochastic gradient
descent [0.0]
本研究では,2次ランゲ・クッタ法を導入し,損失関数の最小化のための一貫した手順を導出することを示す。
さらに、適応的なフレームワークに結合して、SGDの学習率を自動的に調整するグラディエントDescent(SGD)を組み込むことができる。
適応型SGDはSGD-G2と呼ばれ、標準データセット上でうまくテストされている。
論文 参考訳(メタデータ) (2020-02-20T15:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。