論文の概要: Parameter-free Statistically Consistent Interpolation:
Dimension-independent Convergence Rates for Hilbert kernel regression
- arxiv url: http://arxiv.org/abs/2106.03354v1
- Date: Mon, 7 Jun 2021 05:50:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 11:28:05.646139
- Title: Parameter-free Statistically Consistent Interpolation:
Dimension-independent Convergence Rates for Hilbert kernel regression
- Title(参考訳): パラメータフリー統計連立補間:ヒルベルト核回帰のための次元非依存収束速度
- Authors: Partha P Mitra and Cl\'ement Sire
- Abstract要約: 最近提案された重み付き補間近接補間法 (wiNN) はこのクラスに属する。
プラグインの余剰リスクは 2|f(x)-1/2|1-1-varepsilon) sigma(x)((n))-frac2$ 以下の任意の$に対して、$f$ は回帰関数 $xmapstomathbbE[yx]$ であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previously, statistical textbook wisdom has held that interpolating noisy
data will generalize poorly, but recent work has shown that data interpolation
schemes can generalize well. This could explain why overparameterized deep nets
do not necessarily overfit. Optimal data interpolation schemes have been
exhibited that achieve theoretical lower bounds for excess risk in any
dimension for large data (Statistically Consistent Interpolation). These are
non-parametric Nadaraya-Watson estimators with singular kernels. The recently
proposed weighted interpolating nearest neighbors method (wiNN) is in this
class, as is the previously studied Hilbert kernel interpolation scheme, in
which the estimator has the form $\hat{f}(x)=\sum_i y_i w_i(x)$, where $w_i(x)=
\|x-x_i\|^{-d}/\sum_j \|x-x_j\|^{-d}$. This estimator is unique in being
completely parameter-free. While statistical consistency was previously proven,
convergence rates were not established. Here, we comprehensively study the
finite sample properties of Hilbert kernel regression. We prove that the excess
risk is asymptotically equivalent pointwise to $\sigma^2(x)/\ln(n)$ where
$\sigma^2(x)$ is the noise variance. We show that the excess risk of the plugin
classifier is less than $2|f(x)-1/2|^{1-\alpha}\,(1+\varepsilon)^\alpha
\sigma^\alpha(x)(\ln(n))^{-\frac{\alpha}{2}}$, for any $0<\alpha<1$, where $f$
is the regression function $x\mapsto\mathbb{E}[y|x]$. We derive asymptotic
equivalents of the moments of the weight functions $w_i(x)$ for large $n$, for
instance for $\beta>1$, $\mathbb{E}[w_i^{\beta}(x)]\sim_{n\rightarrow
\infty}((\beta-1)n\ln(n))^{-1}$. We derive an asymptotic equivalent for the
Lagrange function and exhibit the nontrivial extrapolation properties of this
estimator. We present heuristic arguments for a universal $w^{-2}$ power-law
behavior of the probability density of the weights in the large $n$ limit.
- Abstract(参考訳): これまで、統計教科書の知恵では、補間データの一般化は不十分であると考えられてきたが、最近の研究では、データの補間スキームがうまく一般化できることが示されている。
これは、過剰パラメータのディープネットが必ずしも過剰に適合しない理由を説明できる。
大規模データの任意の次元における過剰リスクの理論的下限を達成するための最適データ補間スキームが示されている(統計的に一貫性補間)。
これらは特異核を持つ非パラメトリックなナダラヤ・ワトソン推定器である。
最近提案された重み付き補間近接補間法(wiNN)は、前述のヒルベルト核補間スキームと同様に、推定器が $\hat{f}(x)=\sum_i y_i w_i(x)$, ここで$w_i(x)= \|x-x_i\|^{-d}/\sum_j \|x-x_j\|^{-d}$ である。
この推定器は完全にパラメータフリーであることに特有である。
統計的一貫性は以前は証明されていたが、収束速度は確立されなかった。
ここでは、ヒルベルト核回帰の有限サンプル特性を包括的に研究する。
我々は余剰リスクが漸近的に$\sigma^2(x)/\ln(n)$に等しいことを証明している。
プラグイン分類器の過剰なリスクは、2|f(x)-1/2|^{1-\alpha}\,(1+\varepsilon)^\alpha \sigma^\alpha(x)(\ln(n))^{-\frac{\alpha}{2}}$、任意の$0<\alpha<1$、ただし$f$ は回帰関数 $x\mapsto\mathbb{e}[y|x]$ である。
例えば $\beta>1$, $\mathbb{E}[w_i^{\beta}(x)]\sim_{n\rightarrow \infty}((\beta-1)n\ln(n))^{-1}$ である。
我々はラグランジュ函数に対する漸近同値を求め、この推定子の非自明な外挿特性を示す。
我々は、大きな$n$極限における重みの確率密度の普遍的w^{-2}$パワーロー挙動に関するヒューリスティックな議論を示す。
関連論文リスト
- Estimation and Inference in Distributional Reinforcement Learning [28.253677740976197]
サイズ$widetilde Oleft(frac|mathcalS||mathcalA|epsilon2 (1-gamma)4right)$ suffices to ensure the Kolmogorov metric and total variation metric between $hatetapi$ and $etapi$ is below $epsilon$ with high probability。
以上の結果から,多種多様な統計的汎関数の統計的推測への統一的アプローチがもたらされた。
論文 参考訳(メタデータ) (2023-09-29T14:14:53Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Near Optimal Heteroscedastic Regression with Symbiotic Learning [29.16456701187538]
我々は不連続線形回帰の問題を考察する。
正則ノルムにおいて$mathbfw*$を$tildeOleft(|mathbff*|2cdot left(frac1n + left(dnright)2right)$の誤差まで推定し、一致する下界を証明できる。
論文 参考訳(メタデータ) (2023-06-25T16:32:00Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - A Law of Robustness beyond Isoperimetry [84.33752026418045]
我々は、任意の分布上でニューラルネットワークパラメータを補間する頑健性の低い$Omega(sqrtn/p)$を証明した。
次に、$n=mathrmpoly(d)$のとき、スムーズなデータに対する過度なパラメータ化の利点を示す。
我々は、$n=exp(omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。
論文 参考訳(メタデータ) (2022-02-23T16:10:23Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - From Smooth Wasserstein Distance to Dual Sobolev Norm: Empirical
Approximation and Statistical Applications [18.618590805279187]
我々は$mathsfW_p(sigma)$が$pth次スムーズな双対ソボレフ$mathsfd_p(sigma)$で制御されていることを示す。
我々は、すべての次元において$sqrtnmathsfd_p(sigma)(hatmu_n,mu)$の極限分布を導出する。
論文 参考訳(メタデータ) (2021-01-11T17:23:24Z) - Consistent regression when oblivious outliers overwhelm [8.873449722727026]
我々の研究に先立ち、ガウスの$X$でさえ、$beta*$ の見積子は、このモデルでは一貫性がないことが知られていた。
ほぼ線形なサンプルサイズと逆ポリノミアル不整分率で一貫した推定が可能であることを示す。
ここで研究したモデルは、最初の瞬間さえも持たない重い尾の雑音の分布も捉えている。
論文 参考訳(メタデータ) (2020-09-30T16:21:34Z) - Linear Time Sinkhorn Divergences using Positive Features [51.50788603386766]
エントロピー正則化で最適な輸送を解くには、ベクトルに繰り返し適用される$ntimes n$ kernel matrixを計算する必要がある。
代わりに、$c(x,y)=-logdotpvarphi(x)varphi(y)$ ここで$varphi$は、地上空間から正のorthant $RRr_+$への写像であり、$rll n$である。
論文 参考訳(メタデータ) (2020-06-12T10:21:40Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。