論文の概要: The Effect of SGD Batch Size on Autoencoder Learning: Sparsity,
Sharpness, and Feature Learning
- arxiv url: http://arxiv.org/abs/2308.03215v1
- Date: Sun, 6 Aug 2023 21:54:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 15:50:26.197404
- Title: The Effect of SGD Batch Size on Autoencoder Learning: Sparsity,
Sharpness, and Feature Learning
- Title(参考訳): 自動エンコーダ学習におけるSGDバッチサイズの影響:空間性,シャープ性,特徴学習
- Authors: Nikhil Ghosh, Spencer Frei, Wooseok Ha, and Bin Yu
- Abstract要約: 単一ニューロンオートエンコーダを用いた場合の勾配降下(SGD)のダイナミクスについて検討する。
サンプル数より小さいバッチサイズの場合、SGDは、そのランダム性にほぼ厳密で疎い、大域的な最小値を見つける。
- 参考スコア(独自算出の注目度): 14.004531386769328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we investigate the dynamics of stochastic gradient descent
(SGD) when training a single-neuron autoencoder with linear or ReLU activation
on orthogonal data. We show that for this non-convex problem, randomly
initialized SGD with a constant step size successfully finds a global minimum
for any batch size choice. However, the particular global minimum found depends
upon the batch size. In the full-batch setting, we show that the solution is
dense (i.e., not sparse) and is highly aligned with its initialized direction,
showing that relatively little feature learning occurs. On the other hand, for
any batch size strictly smaller than the number of samples, SGD finds a global
minimum which is sparse and nearly orthogonal to its initialization, showing
that the randomness of stochastic gradients induces a qualitatively different
type of "feature selection" in this setting. Moreover, if we measure the
sharpness of the minimum by the trace of the Hessian, the minima found with
full batch gradient descent are flatter than those found with strictly smaller
batch sizes, in contrast to previous works which suggest that large batches
lead to sharper minima. To prove convergence of SGD with a constant step size,
we introduce a powerful tool from the theory of non-homogeneous random walks
which may be of independent interest.
- Abstract(参考訳): 本研究では,直交データ上で線形あるいはReLUアクティベートした単一ニューロンオートエンコーダを訓練する際の確率勾配降下(SGD)のダイナミクスについて検討する。
この非凸問題に対して、一定のステップサイズを持つランダム初期化SGDは、任意のバッチサイズの選択に対して、大域的最小値を求めることに成功した。
しかし、見つかった特定のグローバルな最小限はバッチサイズに依存する。
フルバッチ設定では、解が密度(スパースではない)であり、初期化方向と高度に整合していることを示し、特徴学習が比較的少ないことを示す。
一方、サンプル数より厳密に小さいバッチサイズの場合、SGDは初期化とほぼ直交する大域的な最小値を発見し、確率勾配のランダム性は、この設定において質的に異なるタイプの「機能選択」を誘導することを示した。
さらに、ヘッシアンの痕跡によって最小のシャープさを測定すると、完全なバッチ勾配降下を持つミニマは、大きなバッチがよりシャープなミニマを導くことを示唆する以前の作品とは対照的に、厳密に小さなバッチサイズを持つミニマより平坦である。
ステップサイズが一定であるsgdの収束を証明するために、独立興味を持つかもしれない非均質なランダムウォークの理論から強力なツールを導入する。
関連論文リスト
- Discrete error dynamics of mini-batch gradient descent for least squares regression [4.159762735751163]
置換のないサンプリングにおいて,少なくとも正方形に対するミニバッチ勾配勾配のダイナミクスについて検討した。
また、連続時間勾配流解析では検出できない離散化効果について検討し、最小バッチ勾配降下がステップサイズ依存解に収束することを示す。
論文 参考訳(メタデータ) (2024-06-06T02:26:14Z) - Relationship between Batch Size and Number of Steps Needed for Nonconvex
Optimization of Stochastic Gradient Descent using Armijo Line Search [0.8158530638728501]
本研究では,SGDが深層数値線を用いた場合,他の深層学習ネットワークよりも優れた性能を示す。
その結果,バッチサイズが大きくなるにつれて,SFOに必要なステップ数を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T21:59:17Z) - Critical Bach Size Minimizes Stochastic First-Order Oracle Complexity of
Deep Learning Optimizer using Hyperparameters Close to One [0.0]
学習速度が小さいこと,1に近いハイパーパラメータ,大きなバッチサイズが,損失関数を最小化するディープニューラルネットワークのモデルパラメータを見つけることができることを示す。
その結果,Adamは一定の学習率と1に近いハイパーパラメータを用いており,SFOの複雑性を最小化する臨界バッチサイズはモメンタムや勾配勾配よりも早く収束することがわかった。
論文 参考訳(メタデータ) (2022-08-21T06:11:23Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z) - A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima [91.11332770406007]
グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。
また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
論文 参考訳(メタデータ) (2020-02-10T02:04:49Z) - Choosing the Sample with Lowest Loss makes SGD Robust [19.08973384659313]
各ステップで単純な勾配降下法(SGD)を提案する。
しかし、バニラは最小の損失で非電流和を効果的に最小化する新しいアルゴリズムである。
ML問題に対するこの考え方の理論的分析は、小規模なニューラルネットワーク実験によって裏付けられている。
論文 参考訳(メタデータ) (2020-01-10T05:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。