論文の概要: Deep learning, stochastic gradient descent and diffusion maps
- arxiv url: http://arxiv.org/abs/2204.01365v1
- Date: Mon, 4 Apr 2022 10:19:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 13:31:36.875278
- Title: Deep learning, stochastic gradient descent and diffusion maps
- Title(参考訳): 深層学習、確率勾配降下および拡散写像
- Authors: Carmina Fjellstr\"om and Kaj Nystr\"om
- Abstract要約: 勾配降下(SGD)はその計算効率のためにディープラーニングで広く使われている。
過度にパラメータ化された深層ネットワークの損失ランドスケープにおけるHessianの損失関数のほとんどの固有値がゼロに近いことが観察されている。
パラメータ空間は非常に高次元であるが、これらの結果はSGD力学が主に低次元多様体上に存在することを示唆しているようである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD) is widely used in deep learning due to its
computational efficiency but a complete understanding of why SGD performs so
well remains a major challenge. It has been observed empirically that most
eigenvalues of the Hessian of the loss functions on the loss landscape of
over-parametrized deep networks are close to zero, while only a small number of
eigenvalues are large. Zero eigenvalues indicate zero diffusion along the
corresponding directions. This indicates that the process of minima selection
mainly happens in the relatively low-dimensional subspace corresponding to top
eigenvalues of the Hessian. Although the parameter space is very
high-dimensional, these findings seems to indicate that the SGD dynamics may
mainly live on a low-dimensional manifold. In this paper we pursue a truly data
driven approach to the problem of getting a potentially deeper understanding of
the high-dimensional parameter surface, and in particular of the landscape
traced out by SGD, by analyzing the data generated through SGD, or any other
optimizer for that matter, in order to possibly discovery (local)
low-dimensional representations of the optimization landscape. As our vehicle
for the exploration we use diffusion maps introduced by R. Coifman and
coauthors.
- Abstract(参考訳): 確率勾配降下(SGD)は、その計算効率のためにディープラーニングで広く使われているが、なぜSGDがこれほどうまく機能するのかを十分に理解することが大きな課題である。
過パラメータ深層ネットワークの損失景観におけるヘッセンの損失関数の固有値のほとんどがゼロに近いが、少数の固有値しか存在しないことが実証的に観察されている。
ゼロ固有値は対応する方向に沿ってゼロ拡散を示す。
これは、最小選択の過程が主にヘッシアンのトップ固有値に対応する比較的低次元の部分空間で起こることを示している。
パラメータ空間は非常に高次元であるが、これらの結果はsgdダイナミクスが主に低次元多様体上に存在することを示している。
本稿では,高次元パラメータ曲面の潜在的に深い理解を得るための,真にデータ駆動型アプローチを追求する。特にSGDによって追跡されたランドスケープは,最適化ランドスケープの(局所的な)低次元表現を探索するために,SGDや他の最適化器から生成されたデータを解析することによって,SGDによって追跡される。
探索の手段として、R. Coifman と共著者によって導入された拡散写像を用いる。
関連論文リスト
- Risk Bounds of Accelerated SGD for Overparameterized Linear Regression [75.27846230182885]
加速度勾配降下(ASGD)は、深層学習におけるワークホースである。
既存の最適化理論は、ASGDのより高速な収束を説明することしかできないが、より優れた一般化を説明することはできない。
論文 参考訳(メタデータ) (2023-11-23T23:02:10Z) - Learning in latent spaces improves the predictive accuracy of deep
neural operators [0.0]
L-DeepONetは標準のDeepONetの拡張であり、高次元PDE入力の潜在表現と適切なオートエンコーダで識別される出力関数を利用する。
L-DeepONetは時間依存PDEの精度と計算効率の両面で標準手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-15T17:13:09Z) - Solving High-Dimensional PDEs with Latent Spectral Models [74.1011309005488]
我々は,高次元PDEの効率的かつ高精度な解法に向けて,Latent Spectral Models (LSM) を提案する。
数値解析において古典スペクトル法に着想を得て,潜時空間におけるPDEを解くために,ニューラルスペクトルブロックを設計する。
LSMは、一貫した最先端を実現し、7つのベンチマークで平均11.5%の相対的な利益を得る。
論文 参考訳(メタデータ) (2023-01-30T04:58:40Z) - Learning High-Precision Bounding Box for Rotated Object Detection via
Kullback-Leibler Divergence [100.6913091147422]
既存の回転物体検出器は、主に水平検出パラダイムから受け継がれている。
本稿では,回転回帰損失の設計を帰納パラダイムから導出手法に変更することを目的としている。
論文 参考訳(メタデータ) (2021-06-03T14:29:19Z) - Understanding Long Range Memory Effects in Deep Neural Networks [10.616643031188248]
深層学習において,SGD(textitstochastic gradient descent)が重要である。
本研究では, SGN はガウス的でも安定でもないと主張する。
そこで本研究では,SGDをFBM(textitfractional Brownian Motion)によって駆動されるSDEの離散化と見なすことができる。
論文 参考訳(メタデータ) (2021-05-05T13:54:26Z) - Robust Differentiable SVD [117.35644933471401]
対称行列の固有分解は多くのコンピュータビジョンアルゴリズムの中心にある。
不安定性は互いに近い固有値の存在によって生じる。
SVD勾配のテイラー展開は、反復過程に依存することなくPIを用いて得られる勾配と理論的に等価であることを示す。
論文 参考訳(メタデータ) (2021-04-08T15:04:15Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Bypassing the Ambient Dimension: Private SGD with Gradient Subspace
Identification [47.23063195722975]
微分プライベートSGD(DP-SGD)は、微分プライベートな経験的リスク最小化(ERM)を解決する最も一般的な方法の1つである。
各勾配更新におけるノイズの多い摂動のため、DP-SGDの誤差率は、モデル内のパラメータ数である周囲次元$p$でスケールする。
雑音勾配を低次元部分空間に投影することでノイズ低減を行うDP-SGDを提案する。
論文 参考訳(メタデータ) (2020-07-07T22:31:01Z) - Online stochastic gradient descent on non-convex losses from
high-dimensional inference [2.2344764434954256]
勾配降下(SGD)は高次元タスクにおける最適化問題に対する一般的なアルゴリズムである。
本稿では,データから非自明な相関関係を推定する。
本稿では、位相探索や一般化モデルの推定といった一連のタスクに適用することで、我々のアプローチを説明する。
論文 参考訳(メタデータ) (2020-03-23T17:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。