論文の概要: Sliding down the stairs: how correlated latent variables accelerate learning with neural networks
- arxiv url: http://arxiv.org/abs/2404.08602v1
- Date: Fri, 12 Apr 2024 17:01:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 14:27:45.309593
- Title: Sliding down the stairs: how correlated latent variables accelerate learning with neural networks
- Title(参考訳): 階段を滑り降りる:ニューラルネットワークによる学習の相関性
- Authors: Lorenzo Bardone, Sebastian Goldt,
- Abstract要約: 入力累積に符号化された方向に沿った潜伏変数間の相関が高次相関から学習を高速化することを示す。
この結果は2層ニューラルネットワークのシミュレーションで確認された。
- 参考スコア(独自算出の注目度): 8.107431208836426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks extract features from data using stochastic gradient descent (SGD). In particular, higher-order input cumulants (HOCs) are crucial for their performance. However, extracting information from the $p$th cumulant of $d$-dimensional inputs is computationally hard: the number of samples required to recover a single direction from an order-$p$ tensor (tensor PCA) using online SGD grows as $d^{p-1}$, which is prohibitive for high-dimensional inputs. This result raises the question of how neural networks extract relevant directions from the HOCs of their inputs efficiently. Here, we show that correlations between latent variables along the directions encoded in different input cumulants speed up learning from higher-order correlations. We show this effect analytically by deriving nearly sharp thresholds for the number of samples required by a single neuron to weakly-recover these directions using online SGD from a random start in high dimensions. Our analytical results are confirmed in simulations of two-layer neural networks and unveil a new mechanism for hierarchical learning in neural networks.
- Abstract(参考訳): ニューラルネットワークは確率勾配勾配(SGD)を用いたデータから特徴を抽出する。
特に、高次入力累積器(HOC)はその性能に不可欠である。
しかし、$d$-dimensional 入力の$p$th cumulantから情報を抽出するのは計算が困難であり、オンライン SGD を用いた注文$p$tensor (tensor PCA) から単一方向を復元するのに必要なサンプルの数は $d^{p-1}$ として増加し、高次元入力は禁じられている。
この結果は、ニューラルネットワークが入力のHOCからどのように関連する方向を効率的に抽出するかという問題を提起する。
ここでは,異なる入力累積で符号化された方向に沿った潜伏変数間の相関が,高次相関から学習を高速化することを示す。
単一ニューロンが高次元のランダムスタートからオンラインSGDを用いてこれらの方向を弱く復元するために必要なサンプル数に対して、ほぼ鋭い閾値を導出することにより、この効果を解析的に示す。
我々の分析結果は、2層ニューラルネットワークのシミュレーションで確認され、ニューラルネットワークにおける階層学習の新しいメカニズムが明らかにされる。
関連論文リスト
- Generative Kaleidoscopic Networks [2.321684718906739]
我々は、このニューラルネットワークの特性を利用して、ジェネレーティブ・カレイドスコープと呼ばれるデータセット・カレイドスコープを設計する。
我々は、CNN、Transformers、U-Netsといった他のディープラーニングアーキテクチャに対して、この現象を様々な程度に観測した。
論文 参考訳(メタデータ) (2024-02-19T02:48:40Z) - Learning from higher-order statistics, efficiently: hypothesis tests, random features, and neural networks [7.503293567983987]
ニューラルネットワークが高次累積から特徴を抽出する際の効率について検討する。
ニューラルネットワークが2つの分布を2次サンプルの複雑さで区別することを実際に学習していることが示される。
その結果,ニューラルネットワークはスパイクされた累積モデルにおいて,高次相関から情報を効率的に抽出できることが示唆された。
論文 参考訳(メタデータ) (2023-12-22T18:55:25Z) - SGD Finds then Tunes Features in Two-Layer Neural Networks with
near-Optimal Sample Complexity: A Case Study in the XOR problem [1.3597551064547502]
本研究では,2層ニューラルネットワーク上でのミニバッチ降下勾配(SGD)の最適化過程について考察する。
二次 XOR' 関数 $y = -x_ix_j$ でラベル付けされた $d$-dimensional Boolean hypercube から得られるデータから、人口誤差 $o(1)$ と $d :textpolylog(d)$ のサンプルをトレーニングすることが可能であることを証明した。
論文 参考訳(メタデータ) (2023-09-26T17:57:44Z) - Sampling weights of deep neural networks [1.2370077627846041]
完全に接続されたニューラルネットワークの重みとバイアスに対して,効率的なサンプリングアルゴリズムと組み合わせた確率分布を導入する。
教師付き学習環境では、内部ネットワークパラメータの反復最適化や勾配計算は不要である。
サンプルネットワークが普遍近似器であることを証明する。
論文 参考訳(メタデータ) (2023-06-29T10:13:36Z) - Correlation Functions in Random Fully Connected Neural Networks at
Finite Width [17.51364577113718]
この記事では、ガウスのランダムな重みとバイアスと$L$の隠蔽層を持つ完全に接続されたニューラルネットワークについて考察する。
有界非線形性に対しては、ネットワーク出力とその導関数の共役相関関数に対して1/n$の急激な再帰推定を与える。
いずれの場合も、深さと幅の比$L/n$は、個々のニューロンのゆらぎのスケールとニューロン間相関の大きさの両方を制御し、有効なネットワーク深さの役割を担っている。
論文 参考訳(メタデータ) (2022-04-03T11:57:18Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Differentially private training of neural networks with Langevin
dynamics forcalibrated predictive uncertainty [58.730520380312676]
その結果,DP-SGD(差分偏差勾配勾配勾配勾配勾配)は,低校正・過信深層学習モデルが得られることがわかった。
これは、医療診断など、安全クリティカルな応用にとって深刻な問題である。
論文 参考訳(メタデータ) (2021-07-09T08:14:45Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。