論文の概要: Analysis of feature learning in weight-tied autoencoders via the mean
field lens
- arxiv url: http://arxiv.org/abs/2102.08373v1
- Date: Tue, 16 Feb 2021 18:58:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 22:59:29.277329
- Title: Analysis of feature learning in weight-tied autoencoders via the mean
field lens
- Title(参考訳): 平均場レンズによる重み付きオートエンコーダの特徴学習の解析
- Authors: Phan-Minh Nguyen
- Abstract要約: 平均場フレームワークにおける2層重み付き非線形オートエンコーダのクラスを解析する。
勾配降下で訓練されたモデルでは平均場制限ダイナミクスが認められる。
実生活データに関する実験は、この理論と興味深い一致を示した。
- 参考スコア(独自算出の注目度): 3.553493344868413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoencoders are among the earliest introduced nonlinear models for
unsupervised learning. Although they are widely adopted beyond research, it has
been a longstanding open problem to understand mathematically the feature
extraction mechanism that trained nonlinear autoencoders provide.
In this work, we make progress in this problem by analyzing a class of
two-layer weight-tied nonlinear autoencoders in the mean field framework. Upon
a suitable scaling, in the regime of a large number of neurons, the models
trained with stochastic gradient descent are shown to admit a mean field
limiting dynamics. This limiting description reveals an asymptotically precise
picture of feature learning by these models: their training dynamics exhibit
different phases that correspond to the learning of different principal
subspaces of the data, with varying degrees of nonlinear shrinkage dependent on
the $\ell_{2}$-regularization and stopping time. While we prove these results
under an idealized assumption of (correlated) Gaussian data, experiments on
real-life data demonstrate an interesting match with the theory.
The autoencoder setup of interests poses a nontrivial mathematical challenge
to proving these results. In this setup, the "Lipschitz" constants of the
models grow with the data dimension $d$. Consequently an adaptation of previous
analyses requires a number of neurons $N$ that is at least exponential in $d$.
Our main technical contribution is a new argument which proves that the
required $N$ is only polynomial in $d$. We conjecture that $N\gg d$ is
sufficient and that $N$ is necessarily larger than a data-dependent intrinsic
dimension, a behavior that is fundamentally different from previously studied
setups.
- Abstract(参考訳): オートエンコーダは、教師なし学習のための最初期の非線形モデルである。
研究以外にも広く採用されているが、訓練された非線形オートエンコーダが提供する特徴抽出機構を数学的に理解することは長年にわたるオープン問題である。
本研究では,平均場フレームワークにおける2層重み付け非線形オートエンコーダのクラスを解析することにより,この問題を進展させる。
適切なスケーリングでは、多数のニューロンの体制において、確率勾配降下で訓練されたモデルが平均磁場制限ダイナミクスを認めることが示されている。
この制限的な記述は、これらのモデルによる特徴学習の漸近的に正確な図面を明らかにしている: トレーニングダイナミクスは、データの異なる主部分空間の学習に対応する異なるフェーズを示し、$\ell_{2}$-regularizationと停止時間に依存する様々な非線形収縮の度合いを示す。
これらの結果を(関連する)ガウスデータの理想的な仮定の下で証明する一方で、実生活データに関する実験は理論と興味深い一致を示した。
興味のオートエンコーダ設定は、これらの結果を証明するための非自明な数学的挑戦をもたらす。
この設定では、モデルの「Lipschitz」定数は、データ次元$d$で成長します。
従って、以前の分析の適応には、少なくとも$d$で指数関数的な数個のニューロンが必要である。
私たちの主な技術的貢献は、必要な$n$が$d$の多項式のみであることを証明する新しい引数です。
我々は $N\gg d$ が十分であり、$N$ がデータに依存する本質的な次元よりも必ずしも大きいと仮定する。
関連論文リスト
- Easy Differentially Private Linear Regression [16.325734286930764]
本研究では,指数関数機構を用いて,非プライベート回帰モデルの集合からタキー深度の高いモデルを選択するアルゴリズムについて検討する。
このアルゴリズムは、データリッチな設定において、強い経験的性能を得る。
論文 参考訳(メタデータ) (2022-08-15T17:42:27Z) - Hidden Progress in Deep Learning: SGD Learns Parities Near the
Computational Limit [36.17720004582283]
この研究は、$k$sparseパリティを$n$bitsで学習するレンズを通してそのような探索を行う。
データセットのサイズと実行時間をスケールアップする際、ニューラルネットワークは驚くほどの位相遷移を示す。
論文 参考訳(メタデータ) (2022-07-18T17:55:05Z) - Neural Stein critics with staged $L^2$-regularization [15.793267225282571]
ニューラルネットワーク批判者のトレーニングにおける$L2$正規化の役割について検討する。
トレーニング時間における正規化の重み付けのための新しいステージング手法を開発した。
実演された$L2$正規化の利点は、シミュレーションされた高次元データに示される。
論文 参考訳(メタデータ) (2022-07-07T16:25:02Z) - Diffusion models as plug-and-play priors [98.16404662526101]
我々は、事前の$p(mathbfx)$と補助的な制約である$c(mathbfx,mathbfy)$からなるモデルにおいて、高次元データ$mathbfx$を推論する問題を考える。
拡散モデルの構造は,異なるノイズ量に富んだ定性デノナイジングネットワークを通じて,微分を反復することで近似推論を行うことができる。
論文 参考訳(メタデータ) (2022-06-17T21:11:36Z) - Precise Learning Curves and Higher-Order Scaling Limits for Dot Product
Kernel Regression [33.59320315666675]
本稿では, ドット積カーネルにおけるカーネルリッジ回帰の問題と, テスト誤差, バイアス, 分散の式に焦点をあてる。
我々は、任意の整数$r$に対して$m approx dr/r!$が常に学習曲線のピークを観測し、複数のサンプルワイズと非自明な振る舞いを複数のスケールで達成する。
論文 参考訳(メタデータ) (2022-05-30T04:21:31Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - The Information Bottleneck Problem and Its Applications in Machine
Learning [53.57797720793437]
近年,機械学習システムの推論能力が急上昇し,社会の様々な側面において重要な役割を担っている。
情報ボトルネック(IB)理論は、ディープラーニング(DL)システムを分析するための大胆な情報理論パラダイムとして登場した。
本チュートリアルでは,この抽象原理の情報理論的起源と最近のDLへの影響について考察する。
論文 参考訳(メタデータ) (2020-04-30T16:48:51Z) - A Neural Scaling Law from the Dimension of the Data Manifold [8.656787568717252]
データが豊富であれば、よく訓練されたニューラルネットワークによって達成される損失は、ネットワークパラメータの数でN-alpha$のパワーロープロットとしてスケールする。
スケーリングの法則は、ニューラルモデルが本質的に内在次元$d$のデータ多様体上で回帰を行えば説明できる。
この単純な理論は、スケーリング指数が、クロスエントロピーと平均二乗誤差損失に対して$alpha approx 4/d$となることを予測している。
論文 参考訳(メタデータ) (2020-04-22T19:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。