Fugu-MT 論文翻訳(概要): Kernel Learning in Ridge Regression "Automatically" Yields Exact Low Rank Solution

論文の概要: Kernel Learning in Ridge Regression "Automatically" Yields Exact Low Rank Solution

arxiv url: http://arxiv.org/abs/2310.11736v2
Date: Mon, 27 Nov 2023 20:30:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 13:54:37.059499
Title: Kernel Learning in Ridge Regression "Automatically" Yields Exact Low Rank Solution
Title（参考訳）: 尾根回帰におけるカーネル学習 : 低ランク解の「自動」収量
Authors: Yunlu Chen, Yang Li, Keli Liu, and Feng Ruan
Abstract要約: 我々は、$(x,x') の phi(|x-x'|2_Sigma)$ の形の核を考える。有限サンプルカーネル学習目標のグローバル最小化も高い確率で低いランクであることがわかった。
参考スコア（独自算出の注目度）: 6.109362130047454
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We consider kernels of the form $(x,x') \mapsto \phi(\|x-x'\|^2_\Sigma)$ parametrized by $\Sigma$. For such kernels, we study a variant of the kernel ridge regression problem which simultaneously optimizes the prediction function and the parameter $\Sigma$ of the reproducing kernel Hilbert space. The eigenspace of the $\Sigma$ learned from this kernel ridge regression problem can inform us which directions in covariate space are important for prediction. Assuming that the covariates have nonzero explanatory power for the response only through a low dimensional subspace (central mean subspace), we find that the global minimizer of the finite sample kernel learning objective is also low rank with high probability. More precisely, the rank of the minimizing $\Sigma$ is with high probability bounded by the dimension of the central mean subspace. This phenomenon is interesting because the low rankness property is achieved without using any explicit regularization of $\Sigma$, e.g., nuclear norm penalization. Our theory makes correspondence between the observed phenomenon and the notion of low rank set identifiability from the optimization literature. The low rankness property of the finite sample solutions exists because the population kernel learning objective grows "sharply" when moving away from its minimizers in any direction perpendicular to the central mean subspace.
Abstract（参考訳）: 我々は、$(x,x') \mapsto \phi(\|x-x'\|^2_\Sigma)$\Sigma$の形の核を考える。このようなカーネルに対しては、予測関数と再生カーネルヒルベルト空間のパラメータ$\Sigma$を同時に最適化するカーネルリッジ回帰問題の変種について検討する。このカーネルリッジ回帰問題から学んだ$\sigma$の固有空間は、共変量空間のどの方向が予測に重要であるかを教えてくれる。共変量体が低次元部分空間(中央平均部分空間)を通してのみ応答の非ゼロ説明力を持つと仮定すると、有限標本カーネル学習目標の大域最小化器も高い確率で低ランクであることが分かる。より正確には、$\Sigma$ の最小化のランクは、中心平均部分空間の次元によって有界な高い確率を持つ。この現象は、低ランク性の性質は、例えば核標準ペナリゼーションのような$\sigma$の明示的な正則化を使わずに達成されるので興味深い。本理論は、観測現象と最適化文献から識別可能な低階集合の概念とを対応づける。群核学習の目的が中心平均部分空間に垂直な任意の方向の最小化子から離れるときに「シャープに」成長するため、有限サンプル解の低ランク性は存在する。

関連論文リスト

Random Matrix Theory for Deep Learning: Beyond Eigenvalues of Linear Models [51.85815025140659]
現代の機械学習(ML)とディープニューラルネットワーク(DNN)は高次元のデータを扱うことが多い。特に、データ次元、サンプルサイズ、モデルパラメータの数がすべて大きな比例規則は、新しく、時には直感に反する振る舞いを引き起こす。本稿では、線形モデルの固有値に基づく解析を超えて従来のランダム行列理論(RMT)を拡張し、非線形MLモデルによる課題に対処する。
論文参考訳（メタデータ） (2025-06-16T06:54:08Z)
Nonlinear Model Order Reduction of Dynamical Systems in Process Engineering: Review and Comparison [50.0791489606211]
我々は、最先端の非線形モデルオーダー削減手法についてレビューする。本稿では,(化学)プロセスシステムのための汎用的手法と適合したアプローチについて論じる。
論文参考訳（メタデータ） (2025-06-15T11:39:12Z)
Bilinear Convolution Decomposition for Causal RL Interpretability [0.0]
強化学習(RL)モデルを解釈する試みは、しばしば帰属や探究のような高度な技術に依存している。本研究では、畳み込みニューラルネットワーク(ConvNets)の非線形性を双線型変種に置き換え、これらの制限に対処可能なモデルのクラスを作成することを提案する。モデルフリー強化学習環境では,バイリニアモデルの変形が相容れないことを示し,ProcGen環境上での並べ比較を行う。
論文参考訳（メタデータ） (2024-12-01T19:32:04Z)
Towards understanding epoch-wise double descent in two-layer linear neural networks [11.210628847081097]
2層線形ニューラルネットワークにおけるエポックワイズ二重降下について検討した。余剰モデル層で出現するエポックな2重降下の要因を同定した。これは真に深いモデルに対するエポックワイズ二重降下の未同定因子に関するさらなる疑問を提起する。
論文参考訳（メタデータ） (2024-07-13T10:45:21Z)
Stable Minima Cannot Overfit in Univariate ReLU Networks: Generalization by Large Step Sizes [29.466981306355066]
固定学習率$eta$の勾配降下はスムーズな関数を表す局所最小値しか見つからないことを示す。また、$n$のデータポイントのサポートの厳密な内部で、$widetildeO(n-4/5)$のほぼ最適MSE境界を証明します。
論文参考訳（メタデータ） (2024-06-10T22:57:27Z)
Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文参考訳（メタデータ） (2024-02-14T07:52:00Z)
The Optimality of Kernel Classifiers in Sobolev Space [3.3253452228326332]
本稿では,カーネル分類器の統計的性能について検討する。また,2eta(x)-1$の滑らかさを推定する簡単な手法を提案し,本手法を実データセットに適用する。
論文参考訳（メタデータ） (2024-02-02T05:23:34Z)
Optimal Rates of Kernel Ridge Regression under Source Condition in Large Dimensions [15.988264513040903]
そこで,カーネルリッジ回帰 (KRR) の大規模挙動について検討し,サンプルサイズ$n asymp dgamma$ for some $gamma > 0$について検討した。以上の結果から,ガンマ$で変動する速度曲線は周期的台地挙動と多重降下挙動を示すことが明らかとなった。
論文参考訳（メタデータ） (2024-01-02T16:14:35Z)
The Convex Landscape of Neural Networks: Characterizing Global Optima and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。本稿では,凸型神経回復モデルについて検討する。定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文参考訳（メタデータ） (2023-12-19T23:04:56Z)
Riemannian stochastic optimization methods avoid strict saddle points [68.80251170757647]
研究中のポリシーは、確率 1 の厳密なサドル点/部分多様体を避けていることを示す。この結果は、アルゴリズムの極限状態が局所最小値にしかならないことを示すため、重要な正当性チェックを提供する。
論文参考訳（メタデータ） (2023-11-04T11:12:24Z)
State-space Models with Layer-wise Nonlinearity are Universal Approximators with Exponential Decaying Memory [0.0]
階層的非線形アクティベーションを伴う状態空間モデルの重ね合わせは,連続的なシーケンスとシーケンスの関係を近似するのに十分であることを示す。以上の結果から,階層的に非線形なアクティベーションが加わったことにより,複雑なシーケンスパターンの学習能力が向上することが示唆された。
論文参考訳（メタデータ） (2023-09-23T15:55:12Z)
Exploring Linear Feature Disentanglement For Neural Networks [63.20827189693117]
Sigmoid、ReLU、Tanhなどの非線形活性化関数は、ニューラルネットワーク(NN)において大きな成功を収めた。サンプルの複雑な非線形特性のため、これらの活性化関数の目的は、元の特徴空間から線形分離可能な特徴空間へサンプルを投影することである。この現象は、現在の典型的なNNにおいて、すべての特徴がすべての非線形関数によって変換される必要があるかどうかを探求することに興味をそそる。
論文参考訳（メタデータ） (2022-03-22T13:09:17Z)
Non-linear manifold ROM with Convolutional Autoencoders and Reduced Over-Collocation method [0.0]
非アフィンパラメトリックな依存、非線形性、興味のモデルにおける対流支配的な規則は、ゆっくりとしたコルモゴロフ n-幅の崩壊をもたらす。我々は,Carlbergらによって導入された非線形多様体法を,オーバーコロケーションの削減とデコーダの教師/学生による学習により実現した。本研究では,2次元非線形保存法と2次元浅水モデルを用いて方法論を検証し,時間とともに動的に進化する純粋データ駆動型手法と長期記憶ネットワークとの比較を行った。
論文参考訳（メタデータ） (2022-03-01T11:16:50Z)
Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文参考訳（メタデータ） (2021-12-06T18:17:08Z)
Nonlinear proper orthogonal decomposition for convection-dominated flows [0.0]
そこで本稿では,自動エンコーダと長期記憶ネットワークを組み合わせたエンドツーエンドのガレルキンフリーモデルを提案する。我々の手法は精度を向上するだけでなく、トレーニングやテストの計算コストを大幅に削減する。
論文参考訳（メタデータ） (2021-10-15T18:05:34Z)
Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。 MRP のサブクラスに対する minimax の下位境界を証明する。
論文参考訳（メタデータ） (2021-09-24T14:48:20Z)
The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文参考訳（メタデータ） (2021-08-25T22:01:01Z)
Taming Nonconvexity in Kernel Feature Selection---Favorable Properties of the Laplace Kernel [77.73399781313893]
カーネルベースの特徴選択の客観的機能を確立することが課題である。非言語最適化に利用可能な勾配に基づくアルゴリズムは、局所ミニマへの収束を保証できるだけである。
論文参考訳（メタデータ） (2021-06-17T11:05:48Z)
Locality defeats the curse of dimensionality in convolutional teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文参考訳（メタデータ） (2021-06-16T08:27:31Z)
Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文参考訳（メタデータ） (2020-11-18T18:52:08Z)
Provably Efficient Neural Estimation of Structural Equation Model: An Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文参考訳（メタデータ） (2020-07-02T17:55:47Z)
Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。 ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。 ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文参考訳（メタデータ） (2020-05-29T07:20:35Z)
RFN: A Random-Feature Based Newton Method for Empirical Risk Minimization in Reproducing Kernel Hilbert Spaces [14.924672048447334]
大規模な有限サム問題はニュートン法の効率的な変種を用いて解くことができ、ヘッセンはデータのサブサンプルによって近似される。本稿では,このような問題に対して,ニュートン法を高速化するためにカーネル近似を自然に利用できることを考察する。局所超線型収束と大域線形収束を両立させる新しい2次アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-12T01:14:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。