論文の概要: Understanding How Nonlinear Layers Create Linearly Separable Features for Low-Dimensional Data
- arxiv url: http://arxiv.org/abs/2501.02364v1
- Date: Sat, 04 Jan 2025 19:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:09:59.416065
- Title: Understanding How Nonlinear Layers Create Linearly Separable Features for Low-Dimensional Data
- Title(参考訳): 非線形層が低次元データに対して線形分離可能な特徴をいかに生み出すかを理解する
- Authors: Alec S. Xu, Can Yaras, Peng Wang, Qing Qu,
- Abstract要約: ディープニューラルネットワークは、様々な分類タスクで顕著な成功を収めている。
最近の実証研究により、ディープネットワークはクラス間で線形に分離可能な特徴を学習することが示されている。
この研究は、経験的観測と非線形ネットワークの分離能力の理論的理解のギャップを埋めるものである。
- 参考スコア(独自算出の注目度): 7.0164889385584415
- License:
- Abstract: Deep neural networks have attained remarkable success across diverse classification tasks. Recent empirical studies have shown that deep networks learn features that are linearly separable across classes. However, these findings often lack rigorous justifications, even under relatively simple settings. In this work, we address this gap by examining the linear separation capabilities of shallow nonlinear networks. Specifically, inspired by the low intrinsic dimensionality of image data, we model inputs as a union of low-dimensional subspaces (UoS) and demonstrate that a single nonlinear layer can transform such data into linearly separable sets. Theoretically, we show that this transformation occurs with high probability when using random weights and quadratic activations. Notably, we prove this can be achieved when the network width scales polynomially with the intrinsic dimension of the data rather than the ambient dimension. Experimental results corroborate these theoretical findings and demonstrate that similar linear separation properties hold in practical scenarios beyond our analytical scope. This work bridges the gap between empirical observations and theoretical understanding of the separation capacity of nonlinear networks, offering deeper insights into model interpretability and generalization.
- Abstract(参考訳): ディープニューラルネットワークは、様々な分類タスクで顕著な成功を収めている。
最近の実証研究により、ディープネットワークはクラス間で線形に分離可能な特徴を学習することが示されている。
しかし、これらの発見は比較的単純な設定下であっても、厳密な正当化を欠いていることが多い。
本研究では,浅層非線形ネットワークの線形分離能力を検討することで,このギャップに対処する。
具体的には、画像データの低内在次元に着想を得て、入力を低次元部分空間(UoS)の和としてモデル化し、単一の非線形層がそのようなデータを線形に分離可能な集合に変換することを実証する。
理論的には、この変換はランダムな重みと二次的なアクティベーションを使用する場合、高い確率で起こる。
特に、ネットワーク幅が周辺次元ではなく、データ固有の次元と多項式的にスケールすることが証明できる。
実験結果はこれらの理論的な知見を裏付け、同様の線形分離特性が我々の分析範囲を超えて実践的なシナリオで成り立つことを示した。
この研究は、経験的観察と非線形ネットワークの分離能力の理論的理解のギャップを埋め、モデル解釈可能性と一般化に関する深い洞察を提供する。
関連論文リスト
- Minimum-Norm Interpolation Under Covariate Shift [14.863831433459902]
高次元線形回帰に関する非分布研究は、テキシトベニンオーバーフィッティング(textitbenign overfitting)として知られる現象の同定につながった。
本稿では,移動学習環境における線形補間器の非漸近的過剰リスク境界を初めて証明する。
論文 参考訳(メタデータ) (2024-03-31T01:41:57Z) - Understanding Deep Representation Learning via Layerwise Feature
Compression and Discrimination [33.273226655730326]
深層線形ネットワークの各層は、幾何速度でクラス内特徴を徐々に圧縮し、線形速度でクラス間特徴を識別することを示す。
これは、ディープ線形ネットワークの階層的表現における特徴進化の最初の定量的評価である。
論文 参考訳(メタデータ) (2023-11-06T09:00:38Z) - Understanding Deep Neural Networks via Linear Separability of Hidden
Layers [68.23950220548417]
まず,ミンコフスキー差分に基づく線形分離性尺度(MD-LSMs)を提案し,2点集合の線形分離性度を評価する。
隠れ層出力の線形分離度とネットワークトレーニング性能との間には同期性があることを実証する。
論文 参考訳(メタデータ) (2023-07-26T05:29:29Z) - The Law of Parsimony in Gradient Descent for Learning Deep Linear
Networks [34.85235641812005]
我々は、データが低次元構造を持つ場合、学習力学において驚くべき「パシモニーの法則」を明らかにする。
この学習力学の単純さは、効率的なトレーニングとディープネットワークのより良い理解の両方に重大な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-06-01T21:24:53Z) - Towards a mathematical understanding of learning from few examples with
nonlinear feature maps [68.8204255655161]
トレーニングセットがわずか数個のデータポイントから構成されるデータ分類の問題を考える。
我々は、AIモデルの特徴空間の幾何学、基礎となるデータ分布の構造、モデルの一般化能力との間の重要な関係を明らかにする。
論文 参考訳(メタデータ) (2022-11-07T14:52:58Z) - Learning from few examples with nonlinear feature maps [68.8204255655161]
我々はこの現象を探求し、AIモデルの特徴空間の次元性、データ分散の非退化、モデルの一般化能力の間の重要な関係を明らかにする。
本分析の主な推力は、元のデータを高次元および無限次元空間にマッピングする非線形特徴変換が結果のモデル一般化能力に与える影響である。
論文 参考訳(メタデータ) (2022-03-31T10:36:50Z) - Exploring Linear Feature Disentanglement For Neural Networks [63.20827189693117]
Sigmoid、ReLU、Tanhなどの非線形活性化関数は、ニューラルネットワーク(NN)において大きな成功を収めた。
サンプルの複雑な非線形特性のため、これらの活性化関数の目的は、元の特徴空間から線形分離可能な特徴空間へサンプルを投影することである。
この現象は、現在の典型的なNNにおいて、すべての特徴がすべての非線形関数によって変換される必要があるかどうかを探求することに興味をそそる。
論文 参考訳(メタデータ) (2022-03-22T13:09:17Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - Sparse Quantized Spectral Clustering [85.77233010209368]
このような非線形変換の下で行列の固有スペクトルがどのように変化するのかを、ランダム行列理論のツールを用いて正確に述べる。
急激なスペーシング/量子化の下でも,情報的固有構造にはほとんど変化は見られなかった。
論文 参考訳(メタデータ) (2020-10-03T15:58:07Z) - Eigendecomposition-Free Training of Deep Networks for Linear
Least-Square Problems [107.3868459697569]
我々は、ディープネットワークのトレーニングに固有分解のないアプローチを導入する。
この手法は固有分解の明示的な微分よりもはるかに堅牢であることを示す。
我々の手法は収束特性が良く、最先端の結果が得られます。
論文 参考訳(メタデータ) (2020-04-15T04:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。