論文の概要: Kernel Learning in Ridge Regression "Automatically" Yields Exact Low
Rank Solution
- arxiv url: http://arxiv.org/abs/2310.11736v2
- Date: Mon, 27 Nov 2023 20:30:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 13:54:37.059499
- Title: Kernel Learning in Ridge Regression "Automatically" Yields Exact Low
Rank Solution
- Title(参考訳): 尾根回帰におけるカーネル学習 : 低ランク解の「自動」収量
- Authors: Yunlu Chen, Yang Li, Keli Liu, and Feng Ruan
- Abstract要約: 我々は、$(x,x') の phi(|x-x'|2_Sigma)$ の形の核を考える。
有限サンプルカーネル学習目標のグローバル最小化も高い確率で低いランクであることがわかった。
- 参考スコア(独自算出の注目度): 6.109362130047454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider kernels of the form $(x,x') \mapsto \phi(\|x-x'\|^2_\Sigma)$
parametrized by $\Sigma$. For such kernels, we study a variant of the kernel
ridge regression problem which simultaneously optimizes the prediction function
and the parameter $\Sigma$ of the reproducing kernel Hilbert space. The
eigenspace of the $\Sigma$ learned from this kernel ridge regression problem
can inform us which directions in covariate space are important for prediction.
Assuming that the covariates have nonzero explanatory power for the response
only through a low dimensional subspace (central mean subspace), we find that
the global minimizer of the finite sample kernel learning objective is also low
rank with high probability. More precisely, the rank of the minimizing $\Sigma$
is with high probability bounded by the dimension of the central mean subspace.
This phenomenon is interesting because the low rankness property is achieved
without using any explicit regularization of $\Sigma$, e.g., nuclear norm
penalization.
Our theory makes correspondence between the observed phenomenon and the
notion of low rank set identifiability from the optimization literature. The
low rankness property of the finite sample solutions exists because the
population kernel learning objective grows "sharply" when moving away from its
minimizers in any direction perpendicular to the central mean subspace.
- Abstract(参考訳): 我々は、$(x,x') \mapsto \phi(\|x-x'\|^2_\Sigma)$\Sigma$の形の核を考える。
このようなカーネルに対しては、予測関数と再生カーネルヒルベルト空間のパラメータ$\Sigma$を同時に最適化するカーネルリッジ回帰問題の変種について検討する。
このカーネルリッジ回帰問題から学んだ$\sigma$の固有空間は、共変量空間のどの方向が予測に重要であるかを教えてくれる。
共変量体が低次元部分空間(中央平均部分空間)を通してのみ応答の非ゼロ説明力を持つと仮定すると、有限標本カーネル学習目標の大域最小化器も高い確率で低ランクであることが分かる。
より正確には、$\Sigma$ の最小化のランクは、中心平均部分空間の次元によって有界な高い確率を持つ。
この現象は、低ランク性の性質は、例えば核標準ペナリゼーションのような$\sigma$の明示的な正則化を使わずに達成されるので興味深い。
本理論は、観測現象と最適化文献から識別可能な低階集合の概念とを対応づける。
群核学習の目的が中心平均部分空間に垂直な任意の方向の最小化子から離れるときに「シャープに」成長するため、有限サンプル解の低ランク性は存在する。
関連論文リスト
- Bilinear Convolution Decomposition for Causal RL Interpretability [0.0]
強化学習(RL)モデルを解釈する試みは、しばしば帰属や探究のような高度な技術に依存している。
本研究では、畳み込みニューラルネットワーク(ConvNets)の非線形性を双線型変種に置き換え、これらの制限に対処可能なモデルのクラスを作成することを提案する。
モデルフリー強化学習環境では,バイリニアモデルの変形が相容れないことを示し,ProcGen環境上での並べ比較を行う。
論文 参考訳(メタデータ) (2024-12-01T19:32:04Z) - Towards understanding epoch-wise double descent in two-layer linear neural networks [11.210628847081097]
2層線形ニューラルネットワークにおけるエポックワイズ二重降下について検討した。
余剰モデル層で出現するエポックな2重降下の要因を同定した。
これは真に深いモデルに対するエポックワイズ二重降下の未同定因子に関するさらなる疑問を提起する。
論文 参考訳(メタデータ) (2024-07-13T10:45:21Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - State-space Models with Layer-wise Nonlinearity are Universal
Approximators with Exponential Decaying Memory [0.0]
階層的非線形アクティベーションを伴う状態空間モデルの重ね合わせは,連続的なシーケンスとシーケンスの関係を近似するのに十分であることを示す。
以上の結果から,階層的に非線形なアクティベーションが加わったことにより,複雑なシーケンスパターンの学習能力が向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-23T15:55:12Z) - Exploring Linear Feature Disentanglement For Neural Networks [63.20827189693117]
Sigmoid、ReLU、Tanhなどの非線形活性化関数は、ニューラルネットワーク(NN)において大きな成功を収めた。
サンプルの複雑な非線形特性のため、これらの活性化関数の目的は、元の特徴空間から線形分離可能な特徴空間へサンプルを投影することである。
この現象は、現在の典型的なNNにおいて、すべての特徴がすべての非線形関数によって変換される必要があるかどうかを探求することに興味をそそる。
論文 参考訳(メタデータ) (2022-03-22T13:09:17Z) - Non-linear manifold ROM with Convolutional Autoencoders and Reduced
Over-Collocation method [0.0]
非アフィンパラメトリックな依存、非線形性、興味のモデルにおける対流支配的な規則は、ゆっくりとしたコルモゴロフ n-幅の崩壊をもたらす。
我々は,Carlbergらによって導入された非線形多様体法を,オーバーコロケーションの削減とデコーダの教師/学生による学習により実現した。
本研究では,2次元非線形保存法と2次元浅水モデルを用いて方法論を検証し,時間とともに動的に進化する純粋データ駆動型手法と長期記憶ネットワークとの比較を行った。
論文 参考訳(メタデータ) (2022-03-01T11:16:50Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Nonlinear proper orthogonal decomposition for convection-dominated flows [0.0]
そこで本稿では,自動エンコーダと長期記憶ネットワークを組み合わせたエンドツーエンドのガレルキンフリーモデルを提案する。
我々の手法は精度を向上するだけでなく、トレーニングやテストの計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2021-10-15T18:05:34Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。