論文の概要: Layered Models can "Automatically" Regularize and Discover Low-Dimensional Structures via Feature Learning
- arxiv url: http://arxiv.org/abs/2310.11736v3
- Date: Thu, 30 Jan 2025 08:34:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:11:46.719681
- Title: Layered Models can "Automatically" Regularize and Discover Low-Dimensional Structures via Feature Learning
- Title(参考訳): 低次元構造を特徴学習により「自動的」に発見できる階層モデル
- Authors: Yunlu Chen, Yang Li, Keli Liu, Feng Ruan,
- Abstract要約: 入力が線形変換を行い、次に非線形写像によって出力を予測する2層非パラメトリック回帰モデルについて検討する。
2層モデルが正規化を「自動的に」誘導し,特徴学習を容易にすることを示す。
- 参考スコア(独自算出の注目度): 6.109362130047454
- License:
- Abstract: Layered models like neural networks appear to extract key features from data through empirical risk minimization, yet the theoretical understanding for this process remains unclear. Motivated by these observations, we study a two-layer nonparametric regression model where the input undergoes a linear transformation followed by a nonlinear mapping to predict the output, mirroring the structure of two-layer neural networks. In our model, both layers are optimized jointly through empirical risk minimization, with the nonlinear layer modeled by a reproducing kernel Hilbert space induced by a rotation and translation invariant kernel, regularized by a ridge penalty. Our main result shows that the two-layer model can "automatically" induce regularization and facilitate feature learning. Specifically, the two-layer model promotes dimensionality reduction in the linear layer and identifies a parsimonious subspace of relevant features -- even without applying any norm penalty on the linear layer. Notably, this regularization effect arises directly from the model's layered structure, independent of optimization dynamics. More precisely, assuming the covariates have nonzero explanatory power for the response only through a low dimensional subspace (central mean subspace), the linear layer consistently estimates both the subspace and its dimension. This demonstrates that layered models can inherently discover low-complexity solutions relevant for prediction, without relying on conventional regularization methods. Real-world data experiments further demonstrate the persistence of this phenomenon in practice.
- Abstract(参考訳): ニューラルネットワークのような階層モデルでは、経験的リスク最小化を通じてデータから重要な特徴を抽出しているように見えるが、このプロセスの理論的理解は依然として不明である。
これらの観測から得られた2層非パラメトリック回帰モデルでは、入力が線形変換を行い、次に非線形マッピングにより出力を予測し、2層ニューラルネットワークの構造を反映する。
本モデルでは、両層を実験的リスク最小化により協調的に最適化し、回転および変換不変なカーネルによって誘導される再生カーネルヒルベルト空間によってモデル化された非線形層を尾根ペナルティにより正規化する。
本研究の主な成果は,2層モデルが正規化を誘導し,特徴学習を促進することを示唆している。
特に、2層モデルでは、線形層にノルムのペナルティを課すことなく、線形層における次元の減少を促進し、関連する機能の同相部分空間を識別する。
特に、この正規化効果は、最適化力学とは独立に、モデルの階層構造から直接生じる。
より正確には、共変数が低次元部分空間(中央平均部分空間)を通してのみ応答に対してゼロでない説明力を持つと仮定すると、線型層は部分空間とその次元を一貫して推定する。
このことは、階層モデルが従来の正規化手法に頼ることなく、予測に関係する低複雑さの解を本質的に発見できることを証明している。
実世界のデータ実験は、実際にこの現象の持続性をさらに証明している。
関連論文リスト
- Stable Minima Cannot Overfit in Univariate ReLU Networks: Generalization by Large Step Sizes [29.466981306355066]
固定学習率$eta$の勾配降下はスムーズな関数を表す局所最小値しか見つからないことを示す。
また、$n$のデータポイントのサポートの厳密な内部で、$widetildeO(n-4/5)$のほぼ最適MSE境界を証明します。
論文 参考訳(メタデータ) (2024-06-10T22:57:27Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - The Optimality of Kernel Classifiers in Sobolev Space [3.3253452228326332]
本稿では,カーネル分類器の統計的性能について検討する。
また,2eta(x)-1$の滑らかさを推定する簡単な手法を提案し,本手法を実データセットに適用する。
論文 参考訳(メタデータ) (2024-02-02T05:23:34Z) - Optimal Rates of Kernel Ridge Regression under Source Condition in Large
Dimensions [15.988264513040903]
そこで,カーネルリッジ回帰 (KRR) の大規模挙動について検討し,サンプルサイズ$n asymp dgamma$ for some $gamma > 0$について検討した。
以上の結果から,ガンマ$で変動する速度曲線は周期的台地挙動と多重降下挙動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-02T16:14:35Z) - Riemannian stochastic optimization methods avoid strict saddle points [68.80251170757647]
研究中のポリシーは、確率 1 の厳密なサドル点/部分多様体を避けていることを示す。
この結果は、アルゴリズムの極限状態が局所最小値にしかならないことを示すため、重要な正当性チェックを提供する。
論文 参考訳(メタデータ) (2023-11-04T11:12:24Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Taming Nonconvexity in Kernel Feature Selection---Favorable Properties
of the Laplace Kernel [77.73399781313893]
カーネルベースの特徴選択の客観的機能を確立することが課題である。
非言語最適化に利用可能な勾配に基づくアルゴリズムは、局所ミニマへの収束を保証できるだけである。
論文 参考訳(メタデータ) (2021-06-17T11:05:48Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z) - RFN: A Random-Feature Based Newton Method for Empirical Risk
Minimization in Reproducing Kernel Hilbert Spaces [14.924672048447334]
大規模な有限サム問題はニュートン法の効率的な変種を用いて解くことができ、ヘッセンはデータのサブサンプルによって近似される。
本稿では,このような問題に対して,ニュートン法を高速化するためにカーネル近似を自然に利用できることを考察する。
局所超線型収束と大域線形収束を両立させる新しい2次アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-12T01:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。