論文の概要: How isotropic kernels perform on simple invariants
- arxiv url: http://arxiv.org/abs/2006.09754v5
- Date: Mon, 14 Dec 2020 20:20:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 20:17:33.772725
- Title: How isotropic kernels perform on simple invariants
- Title(参考訳): 単純不変量上での等方核の作用
- Authors: Jonas Paccolat, Stefano Spigler and Matthieu Wyart
- Abstract要約: 等方性カーネル手法のトレーニング曲線は、学習すべきタスクの対称性に依存するかを検討する。
大規模な帯域幅では、$beta = fracd-1+xi3d-3+xi$, where $xiin (0,2)$ がカーネルのストライプを原点とする指数であることを示す。
- 参考スコア(独自算出の注目度): 0.5729426778193397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate how the training curve of isotropic kernel methods depends on
the symmetry of the task to be learned, in several settings. (i) We consider a
regression task, where the target function is a Gaussian random field that
depends only on $d_\parallel$ variables, fewer than the input dimension $d$. We
compute the expected test error $\epsilon$ that follows $\epsilon\sim
p^{-\beta}$ where $p$ is the size of the training set. We find that $\beta\sim
1/d$ independently of $d_\parallel$, supporting previous findings that the
presence of invariants does not resolve the curse of dimensionality for kernel
regression. (ii) Next we consider support-vector binary classification and
introduce the stripe model where the data label depends on a single coordinate
$y(\underline{x}) = y(x_1)$, corresponding to parallel decision boundaries
separating labels of different signs, and consider that there is no margin at
these interfaces. We argue and confirm numerically that for large bandwidth,
$\beta = \frac{d-1+\xi}{3d-3+\xi}$, where $\xi\in (0,2)$ is the exponent
characterizing the singularity of the kernel at the origin. This estimation
improves classical bounds obtainable from Rademacher complexity. In this
setting there is no curse of dimensionality since $\beta\rightarrow 1 / 3$ as
$d\rightarrow\infty$. (iii) We confirm these findings for the spherical model
for which $y(\underline{x}) = y(|\underline{x}|)$. (iv) In the stripe model, we
show that if the data are compressed along their invariants by some factor
$\lambda$ (an operation believed to take place in deep networks), the test
error is reduced by a factor $\lambda^{-\frac{2(d-1)}{3d-3+\xi}}$.
- Abstract(参考訳): 等方性カーネル手法のトレーニング曲線は,学習すべきタスクの対称性にどのように依存するかを,いくつかの設定で検討する。
期待されるテストエラー $\epsilon$ は、トレーニングセットのサイズである$\epsilon\sim p^{-\beta}$ に従って計算する。
我々は$\beta\sim 1/d$が$d_\parallel$とは独立であることに気付き、不変量の存在はカーネル回帰に対する次元性の呪いを解決しないという以前の知見を支持する。
(ii)次に、サポートベクトルのバイナリ分類を検討し、データラベルが単一の座標 $y(\underline{x}) = y(x_1)$ に依存するstripeモデルを導入する。
大帯域では、$\beta = \frac{d-1+\xi}{3d-3+\xi}$, ここで$\xi\in (0,2)$は核の特異点を特徴付ける指数である。
この設定では、$\beta\rightarrow 1 / 3$ as $d\rightarrow\infty$ から次元性の呪いはない。
(iii)これらの結果は、$y(\underline{x}) = y(|\underline{x}|)$ の球面モデルに対して確認される。
(iv) ストライプモデルでは、ある係数$\lambda$(ディープネットワークで発生すると思われる演算)によってデータが不変量に沿って圧縮された場合、テストエラーは$\lambda^{-\frac{2(d-1)}{3d-3+\xi}}$で減少する。
- A computational transition for detecting correlated stochastic block models by low-degree polynomials [13.396246336911842]
一対の相関ブロックモデル $mathcalS(n,tfraclambdan;k,epsilon;s)$ を共通の親ブロックモデル $mathcalS(n,tfraclambdan;k,epsilon;s)$ からサブサンプリングする。
論文 参考訳(メタデータ) (2024-09-02T06:14:05Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Mean Estimation in High-Dimensional Binary Markov Gaussian Mixture
Models [12.746888269949407]
ほぼ最小限の誤差率(対数係数まで)を $|theta_*|,delta,d,n$ の関数として確立する。
論文 参考訳(メタデータ) (2022-06-06T09:34:04Z) - Robust Testing in High-Dimensional Sparse Models [0.0]
回帰係数のノルムを確実に検定するアルゴリズムは、少なくとも$n=Omegaleft(min(slog d,1/gamma4)right)サンプルを必要とする。
論文 参考訳(メタデータ) (2022-05-16T07:47:22Z) - Structure Learning in Graphical Models from Indirect Observations [17.521712510832558]
論文 参考訳(メタデータ) (2022-05-06T19:24:44Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Variance-Aware Confidence Set: Variance-Dependent Bound for Linear
Bandits and Horizon-Free Bound for Linear Mixture MDP [76.94328400919836]
線形バンドイットに対しては、$d を特徴次元とする$widetildeo(mathrmpoly(d)sqrt1 + sum_i=1ksigma_i2) が成り立つ。
線形混合 MDP に対し、$widetildeO(mathrmpoly(d)sqrtK)$ regret bound を得る。
論文 参考訳(メタデータ) (2021-01-29T18:57:52Z) - Geometric compression of invariant manifolds in neural nets [2.461575510055098]
論文 参考訳(メタデータ) (2020-07-22T14:43:49Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)