論文の概要: Analysis of feature learning in weight-tied autoencoders via the mean
field lens
- arxiv url: http://arxiv.org/abs/2102.08373v1
- Date: Tue, 16 Feb 2021 18:58:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 22:59:29.277329
- Title: Analysis of feature learning in weight-tied autoencoders via the mean
field lens
- Title(参考訳): 平均場レンズによる重み付きオートエンコーダの特徴学習の解析
- Authors: Phan-Minh Nguyen
- Abstract要約: 平均場フレームワークにおける2層重み付き非線形オートエンコーダのクラスを解析する。
勾配降下で訓練されたモデルでは平均場制限ダイナミクスが認められる。
実生活データに関する実験は、この理論と興味深い一致を示した。
- 参考スコア(独自算出の注目度): 3.553493344868413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoencoders are among the earliest introduced nonlinear models for
unsupervised learning. Although they are widely adopted beyond research, it has
been a longstanding open problem to understand mathematically the feature
extraction mechanism that trained nonlinear autoencoders provide.
In this work, we make progress in this problem by analyzing a class of
two-layer weight-tied nonlinear autoencoders in the mean field framework. Upon
a suitable scaling, in the regime of a large number of neurons, the models
trained with stochastic gradient descent are shown to admit a mean field
limiting dynamics. This limiting description reveals an asymptotically precise
picture of feature learning by these models: their training dynamics exhibit
different phases that correspond to the learning of different principal
subspaces of the data, with varying degrees of nonlinear shrinkage dependent on
the $\ell_{2}$-regularization and stopping time. While we prove these results
under an idealized assumption of (correlated) Gaussian data, experiments on
real-life data demonstrate an interesting match with the theory.
The autoencoder setup of interests poses a nontrivial mathematical challenge
to proving these results. In this setup, the "Lipschitz" constants of the
models grow with the data dimension $d$. Consequently an adaptation of previous
analyses requires a number of neurons $N$ that is at least exponential in $d$.
Our main technical contribution is a new argument which proves that the
required $N$ is only polynomial in $d$. We conjecture that $N\gg d$ is
sufficient and that $N$ is necessarily larger than a data-dependent intrinsic
dimension, a behavior that is fundamentally different from previously studied
setups.
- Abstract(参考訳): オートエンコーダは、教師なし学習のための最初期の非線形モデルである。
研究以外にも広く採用されているが、訓練された非線形オートエンコーダが提供する特徴抽出機構を数学的に理解することは長年にわたるオープン問題である。
本研究では,平均場フレームワークにおける2層重み付け非線形オートエンコーダのクラスを解析することにより,この問題を進展させる。
適切なスケーリングでは、多数のニューロンの体制において、確率勾配降下で訓練されたモデルが平均磁場制限ダイナミクスを認めることが示されている。
この制限的な記述は、これらのモデルによる特徴学習の漸近的に正確な図面を明らかにしている: トレーニングダイナミクスは、データの異なる主部分空間の学習に対応する異なるフェーズを示し、$\ell_{2}$-regularizationと停止時間に依存する様々な非線形収縮の度合いを示す。
これらの結果を(関連する)ガウスデータの理想的な仮定の下で証明する一方で、実生活データに関する実験は理論と興味深い一致を示した。
興味のオートエンコーダ設定は、これらの結果を証明するための非自明な数学的挑戦をもたらす。
この設定では、モデルの「Lipschitz」定数は、データ次元$d$で成長します。
従って、以前の分析の適応には、少なくとも$d$で指数関数的な数個のニューロンが必要である。
私たちの主な技術的貢献は、必要な$n$が$d$の多項式のみであることを証明する新しい引数です。
我々は $N\gg d$ が十分であり、$N$ がデータに依存する本質的な次元よりも必ずしも大きいと仮定する。
関連論文リスト
- Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Random features and polynomial rules [0.0]
本稿では,ガウスデータを用いた一般教師付き学習問題に対するランダム特徴モデルの性能の一般化について述べる。
我々は、$Dto infty$と$P/DK$,$N/DL$の間の少なくとも一方が有限である極限から遠く離れた良い合意を見出す。
論文 参考訳(メタデータ) (2024-02-15T18:09:41Z) - An Information-Theoretic Analysis of Compute-Optimal Neural Scaling Laws [24.356906682593532]
大規模ニューラルネットワークにおけるモデルとトレーニングデータセットサイズ間の計算-最適トレードオフについて検討する。
以上の結果から, チンチラの実証分析で裏付けられる線形関係が示唆された。
論文 参考訳(メタデータ) (2022-12-02T18:46:41Z) - FeDXL: Provable Federated Learning for Deep X-Risk Optimization [105.17383135458897]
我々は、既存のアルゴリズムが適用できないXリスクのファミリーを最適化するために、新しい連邦学習(FL)問題に取り組む。
Xリスクに対するFLアルゴリズムを設計する際の課題は、複数のマシンに対する目的の非可逆性と、異なるマシン間の相互依存にある。
論文 参考訳(メタデータ) (2022-10-26T00:23:36Z) - Easy Differentially Private Linear Regression [16.325734286930764]
本研究では,指数関数機構を用いて,非プライベート回帰モデルの集合からタキー深度の高いモデルを選択するアルゴリズムについて検討する。
このアルゴリズムは、データリッチな設定において、強い経験的性能を得る。
論文 参考訳(メタデータ) (2022-08-15T17:42:27Z) - Hidden Progress in Deep Learning: SGD Learns Parities Near the
Computational Limit [36.17720004582283]
この研究は、$k$sparseパリティを$n$bitsで学習するレンズを通してそのような探索を行う。
データセットのサイズと実行時間をスケールアップする際、ニューラルネットワークは驚くほどの位相遷移を示す。
論文 参考訳(メタデータ) (2022-07-18T17:55:05Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - A Neural Scaling Law from the Dimension of the Data Manifold [8.656787568717252]
データが豊富であれば、よく訓練されたニューラルネットワークによって達成される損失は、ネットワークパラメータの数でN-alpha$のパワーロープロットとしてスケールする。
スケーリングの法則は、ニューラルモデルが本質的に内在次元$d$のデータ多様体上で回帰を行えば説明できる。
この単純な理論は、スケーリング指数が、クロスエントロピーと平均二乗誤差損失に対して$alpha approx 4/d$となることを予測している。
論文 参考訳(メタデータ) (2020-04-22T19:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。