論文の概要: Layered Models can "Automatically" Regularize and Discover Low-Dimensional Structures via Feature Learning
- arxiv url: http://arxiv.org/abs/2310.11736v3
- Date: Thu, 30 Jan 2025 08:34:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:11:46.719681
- Title: Layered Models can "Automatically" Regularize and Discover Low-Dimensional Structures via Feature Learning
- Title(参考訳): 低次元構造を特徴学習により「自動的」に発見できる階層モデル
- Authors: Yunlu Chen, Yang Li, Keli Liu, Feng Ruan,
- Abstract要約: 入力が線形変換を行い、次に非線形写像によって出力を予測する2層非パラメトリック回帰モデルについて検討する。
2層モデルが正規化を「自動的に」誘導し,特徴学習を容易にすることを示す。
- 参考スコア(独自算出の注目度): 6.109362130047454
- License:
- Abstract: Layered models like neural networks appear to extract key features from data through empirical risk minimization, yet the theoretical understanding for this process remains unclear. Motivated by these observations, we study a two-layer nonparametric regression model where the input undergoes a linear transformation followed by a nonlinear mapping to predict the output, mirroring the structure of two-layer neural networks. In our model, both layers are optimized jointly through empirical risk minimization, with the nonlinear layer modeled by a reproducing kernel Hilbert space induced by a rotation and translation invariant kernel, regularized by a ridge penalty. Our main result shows that the two-layer model can "automatically" induce regularization and facilitate feature learning. Specifically, the two-layer model promotes dimensionality reduction in the linear layer and identifies a parsimonious subspace of relevant features -- even without applying any norm penalty on the linear layer. Notably, this regularization effect arises directly from the model's layered structure, independent of optimization dynamics. More precisely, assuming the covariates have nonzero explanatory power for the response only through a low dimensional subspace (central mean subspace), the linear layer consistently estimates both the subspace and its dimension. This demonstrates that layered models can inherently discover low-complexity solutions relevant for prediction, without relying on conventional regularization methods. Real-world data experiments further demonstrate the persistence of this phenomenon in practice.
- Abstract(参考訳): ニューラルネットワークのような階層モデルでは、経験的リスク最小化を通じてデータから重要な特徴を抽出しているように見えるが、このプロセスの理論的理解は依然として不明である。
これらの観測から得られた2層非パラメトリック回帰モデルでは、入力が線形変換を行い、次に非線形マッピングにより出力を予測し、2層ニューラルネットワークの構造を反映する。
本モデルでは、両層を実験的リスク最小化により協調的に最適化し、回転および変換不変なカーネルによって誘導される再生カーネルヒルベルト空間によってモデル化された非線形層を尾根ペナルティにより正規化する。
本研究の主な成果は,2層モデルが正規化を誘導し,特徴学習を促進することを示唆している。
特に、2層モデルでは、線形層にノルムのペナルティを課すことなく、線形層における次元の減少を促進し、関連する機能の同相部分空間を識別する。
特に、この正規化効果は、最適化力学とは独立に、モデルの階層構造から直接生じる。
より正確には、共変数が低次元部分空間(中央平均部分空間)を通してのみ応答に対してゼロでない説明力を持つと仮定すると、線型層は部分空間とその次元を一貫して推定する。
このことは、階層モデルが従来の正規化手法に頼ることなく、予測に関係する低複雑さの解を本質的に発見できることを証明している。
実世界のデータ実験は、実際にこの現象の持続性をさらに証明している。
関連論文リスト
- Bilinear Convolution Decomposition for Causal RL Interpretability [0.0]
強化学習(RL)モデルを解釈する試みは、しばしば帰属や探究のような高度な技術に依存している。
本研究では、畳み込みニューラルネットワーク(ConvNets)の非線形性を双線型変種に置き換え、これらの制限に対処可能なモデルのクラスを作成することを提案する。
モデルフリー強化学習環境では,バイリニアモデルの変形が相容れないことを示し,ProcGen環境上での並べ比較を行う。
論文 参考訳(メタデータ) (2024-12-01T19:32:04Z) - Towards understanding epoch-wise double descent in two-layer linear neural networks [11.210628847081097]
2層線形ニューラルネットワークにおけるエポックワイズ二重降下について検討した。
余剰モデル層で出現するエポックな2重降下の要因を同定した。
これは真に深いモデルに対するエポックワイズ二重降下の未同定因子に関するさらなる疑問を提起する。
論文 参考訳(メタデータ) (2024-07-13T10:45:21Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - State-space Models with Layer-wise Nonlinearity are Universal
Approximators with Exponential Decaying Memory [0.0]
階層的非線形アクティベーションを伴う状態空間モデルの重ね合わせは,連続的なシーケンスとシーケンスの関係を近似するのに十分であることを示す。
以上の結果から,階層的に非線形なアクティベーションが加わったことにより,複雑なシーケンスパターンの学習能力が向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-23T15:55:12Z) - Exploring Linear Feature Disentanglement For Neural Networks [63.20827189693117]
Sigmoid、ReLU、Tanhなどの非線形活性化関数は、ニューラルネットワーク(NN)において大きな成功を収めた。
サンプルの複雑な非線形特性のため、これらの活性化関数の目的は、元の特徴空間から線形分離可能な特徴空間へサンプルを投影することである。
この現象は、現在の典型的なNNにおいて、すべての特徴がすべての非線形関数によって変換される必要があるかどうかを探求することに興味をそそる。
論文 参考訳(メタデータ) (2022-03-22T13:09:17Z) - Non-linear manifold ROM with Convolutional Autoencoders and Reduced
Over-Collocation method [0.0]
非アフィンパラメトリックな依存、非線形性、興味のモデルにおける対流支配的な規則は、ゆっくりとしたコルモゴロフ n-幅の崩壊をもたらす。
我々は,Carlbergらによって導入された非線形多様体法を,オーバーコロケーションの削減とデコーダの教師/学生による学習により実現した。
本研究では,2次元非線形保存法と2次元浅水モデルを用いて方法論を検証し,時間とともに動的に進化する純粋データ駆動型手法と長期記憶ネットワークとの比較を行った。
論文 参考訳(メタデータ) (2022-03-01T11:16:50Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Nonlinear proper orthogonal decomposition for convection-dominated flows [0.0]
そこで本稿では,自動エンコーダと長期記憶ネットワークを組み合わせたエンドツーエンドのガレルキンフリーモデルを提案する。
我々の手法は精度を向上するだけでなく、トレーニングやテストの計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2021-10-15T18:05:34Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。