論文の概要: Feature learning from non-Gaussian inputs: the case of Independent Component Analysis in high dimensions
- arxiv url: http://arxiv.org/abs/2503.23896v1
- Date: Mon, 31 Mar 2025 09:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:37:24.623851
- Title: Feature learning from non-Gaussian inputs: the case of Independent Component Analysis in high dimensions
- Title(参考訳): 非ガウス入力による特徴学習--高次元独立成分分析の場合
- Authors: Fabiola Ricci, Lorenzo Bardone, Sebastian Goldt,
- Abstract要約: 我々は、最も人気のあるICAアルゴリズムであるFastICAと勾配降下(SGD)のための特徴学習におけるデータ構造間の相互作用について検討する。
我々は、バニラオンラインSGDがFastICAより優れており、損失を平滑にすることで最適なサンプルの複雑さが$ngtrsim d2$に達することを証明している。
- 参考スコア(独自算出の注目度): 7.2136602534376015
- License:
- Abstract: Deep neural networks learn structured features from complex, non-Gaussian inputs, but the mechanisms behind this process remain poorly understood. Our work is motivated by the observation that the first-layer filters learnt by deep convolutional neural networks from natural images resemble those learnt by independent component analysis (ICA), a simple unsupervised method that seeks the most non-Gaussian projections of its inputs. This similarity suggests that ICA provides a simple, yet principled model for studying feature learning. Here, we leverage this connection to investigate the interplay between data structure and optimisation in feature learning for the most popular ICA algorithm, FastICA, and stochastic gradient descent (SGD), which is used to train deep networks. We rigorously establish that FastICA requires at least $n\gtrsim d^4$ samples to recover a single non-Gaussian direction from $d$-dimensional inputs on a simple synthetic data model. We show that vanilla online SGD outperforms FastICA, and prove that the optimal sample complexity $n \gtrsim d^2$ can be reached by smoothing the loss, albeit in a data-dependent way. We finally demonstrate the existence of a search phase for FastICA on ImageNet, and discuss how the strong non-Gaussianity of said images compensates for the poor sample complexity of FastICA.
- Abstract(参考訳): ディープニューラルネットワークは複雑な非ガウス入力から構造的特徴を学習するが、このプロセスの背後にあるメカニズムは理解されていない。
我々の研究は、自然画像から深部畳み込みニューラルネットワークで学習した第1層フィルタが、インプットの最も非ガウス的な投影を求める単純な教師なし手法である独立成分分析(ICA)で学習したフィルタに似ているという観察に動機づけられている。
この類似性は、ICAが特徴学習を研究するための単純だが原則化されたモデルを提供していることを示唆している。
本稿では、この接続を利用して、最も人気のあるICAアルゴリズムであるFastICAと、ディープネットワークのトレーニングに使用される確率勾配勾配(SGD)のための特徴学習における、データ構造と最適化の相互作用を調べる。
我々はFastICAが単純な合成データモデル上の$d$次元入力から1つの非ガウス方向を復元するために少なくとも$n\gtrsim d^4$サンプルを必要とすることを厳格に証明した。
我々は、バニラオンラインSGDがFastICAより優れており、データ依存的な方法で損失を滑らかにすることで、最適なサンプルの複雑さ$n \gtrsim d^2$に達することを証明している。
我々は最終的に、ImageNet上のFastICAの検索フェーズの存在を実証し、これらの画像の強い非ガウス性が、FastICAの貧弱なサンプルの複雑さを補うかについて議論する。
関連論文リスト
- Simplicity Bias via Global Convergence of Sharpness Minimization [43.658859631741024]
ラベルノイズSGDは、2層ネットワークにおける損失ゼロのモデル多様体のシャープネスを常に最小化することを示す。
また、ゼロ損失多様体上の近似定常点における損失のヘッセンのトレースの新たな性質も見いだす。
論文 参考訳(メタデータ) (2024-10-21T18:10:37Z) - Sliding down the stairs: how correlated latent variables accelerate learning with neural networks [8.107431208836426]
入力累積に符号化された方向に沿った潜伏変数間の相関が高次相関から学習を高速化することを示す。
この結果は2層ニューラルネットワークのシミュレーションで確認された。
論文 参考訳(メタデータ) (2024-04-12T17:01:25Z) - Neural Network Pruning by Gradient Descent [7.427858344638741]
我々は,Gumbel-Softmaxテクニックを取り入れた,新しい,かつ簡単なニューラルネットワークプルーニングフレームワークを提案する。
ネットワークパラメータの0.15%しか持たないMNISTデータセット上で、高い精度を維持しながら、例外的な圧縮能力を実証する。
我々は,ディープラーニングプルーニングと解釈可能な機械学習システム構築のための,有望な新たな道を開くと信じている。
論文 参考訳(メタデータ) (2023-11-21T11:12:03Z) - Gradient-Based Feature Learning under Structured Data [57.76552698981579]
異方性設定では、一般的に使用される球面勾配力学は真の方向を回復できないことがある。
バッチ正規化を連想させる適切な重み正規化は、この問題を軽減することができることを示す。
特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にできる。
論文 参考訳(メタデータ) (2023-09-07T16:55:50Z) - Joint Edge-Model Sparse Learning is Provably Efficient for Graph Neural
Networks [89.28881869440433]
本稿では,グラフニューラルネットワーク(GNN)における結合エッジモデルスパース学習の理論的特徴について述べる。
解析学的には、重要なノードをサンプリングし、最小のマグニチュードでプルーニングニューロンをサンプリングすることで、サンプルの複雑さを減らし、テスト精度を損なうことなく収束を改善することができる。
論文 参考訳(メタデータ) (2023-02-06T16:54:20Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Learning Single-Index Models with Shallow Neural Networks [43.6480804626033]
我々は、浅層ニューラルネットワークの自然なクラスを導入し、勾配流を通して単一インデックスモデルを学習する能力について研究する。
対応する最適化ランドスケープが良性であることを示し、それによって専用半パラメトリック手法の準最適サンプル複雑性に一致するような一般化保証が得られることを示す。
論文 参考訳(メタデータ) (2022-10-27T17:52:58Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Generalized Approach to Matched Filtering using Neural Networks [4.535489275919893]
我々は,新たな深層学習と従来の技術との関係について重要な観察を行う。
一致するフィルタリングは、特定のニューラルネットワークと正式に等価です。
提案するニューラルネットワークアーキテクチャがマッチングフィルタリングよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:07Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。