論文の概要: Universality of empirical risk minimization
- arxiv url: http://arxiv.org/abs/2202.08832v1
- Date: Thu, 17 Feb 2022 18:53:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 14:52:53.986155
- Title: Universality of empirical risk minimization
- Title(参考訳): 経験的リスク最小化の普遍性
- Authors: Andrea Montanari and Basil Saeed
- Abstract要約: 例えば、$boldsymbol x_i inmathbbRp$ が特徴ベクトルで $y in mathbbR$ がラベルであるような i.d. サンプルからの教師付き学習を考える。
我々は$mathsfkによってパラメータ化される関数のクラスに対する経験的リスク普遍性について研究する。
- 参考スコア(独自算出の注目度): 12.764655736673749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consider supervised learning from i.i.d. samples $\{{\boldsymbol
x}_i,y_i\}_{i\le n}$ where ${\boldsymbol x}_i \in\mathbb{R}^p$ are feature
vectors and ${y} \in \mathbb{R}$ are labels. We study empirical risk
minimization over a class of functions that are parameterized by $\mathsf{k} =
O(1)$ vectors ${\boldsymbol \theta}_1, . . . , {\boldsymbol \theta}_{\mathsf k}
\in \mathbb{R}^p$ , and prove universality results both for the training and
test error. Namely, under the proportional asymptotics $n,p\to\infty$, with
$n/p = \Theta(1)$, we prove that the training error depends on the random
features distribution only through its covariance structure. Further, we prove
that the minimum test error over near-empirical risk minimizers enjoys similar
universality properties. In particular, the asymptotics of these quantities can
be computed $-$to leading order$-$ under a simpler model in which the feature
vectors ${\boldsymbol x}_i$ are replaced by Gaussian vectors ${\boldsymbol
g}_i$ with the same covariance. Earlier universality results were limited to
strongly convex learning procedures, or to feature vectors ${\boldsymbol x}_i$
with independent entries. Our results do not make any of these assumptions. Our
assumptions are general enough to include feature vectors ${\boldsymbol x}_i$
that are produced by randomized featurization maps. In particular we explicitly
check the assumptions for certain random features models (computing the output
of a one-layer neural network with random weights) and neural tangent models
(first-order Taylor approximation of two-layer networks).
- Abstract(参考訳): d.d. サンプル $\{{\boldsymbol x}_i,y_i\}_{i\le n}$ ここで、${\boldsymbol x}_i \in\mathbb{R}^p$ は特徴ベクトルであり、${y} \in \mathbb{R}$ はラベルである。
我々は,$\mathsf{k} = o(1)$ vectors ${\boldsymbol \theta}_1, . . . , {\boldsymbol \theta}_{\mathsf k} \in \mathbb{r}^p$ でパラメータ化される関数のクラスに対する経験的リスク最小化について検討し,トレーニングとテストエラーの両方で普遍性が証明された。
すなわち、比例漸近値 $n,p\to\infty$, with $n/p = \theta(1)$ の下で、トレーニング誤差はその共分散構造を通してのみランダム特徴分布に依存することが証明される。
さらに,短期的リスク最小値に対する最小テスト誤差が類似する普遍性特性を享受できることを実証する。
特に、これらの量の漸近はより単純なモデルの下で$-$to leading order$-$と計算され、特徴ベクトル ${\boldsymbol x}_i$ は同じ共分散を持つガウスベクトル ${\boldsymbol g}_i$ に置き換えられる。
初期の普遍性の結果は、強い凸学習手順や独立エントリを持つベクトル${\boldsymbol x}_i$に限られていた。
私たちの結果はこれらの仮定を成さない。
我々の仮定は、ランダム化有限化写像によって生成される特徴ベクトル ${\boldsymbol x}_i$ を含むのに十分一般的である。
特に、特定のランダムな特徴モデル(ランダムな重み付き一層ニューラルネットワークの出力を計算する)とニューラルタンジェントモデル(二層ネットワークの1次テイラー近似)の仮定を明示的に検証する。
関連論文リスト
- Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Statistical Learning under Heterogeneous Distribution Shift [71.8393170225794]
ground-truth predictor is additive $mathbbE[mathbfz mid mathbfx,mathbfy] = f_star(mathbfx) +g_star(mathbfy)$.
論文 参考訳(メタデータ) (2023-02-27T16:34:21Z) - Sparse Signal Detection in Heteroscedastic Gaussian Sequence Models:
Sharp Minimax Rates [1.0309387309011746]
スパースな代替品に対する信号検出問題を、既知のスパシティ$s$に対して検討する。
ミニマックス分離半径$epsilon*$の上の上限と下限を見つけ、それらが常に一致することを証明する。
以上の結果から,epsilon*$の挙動に関する新たな位相遷移が,Sigma$の疎度レベル,$Lt$メトリック,およびヘテロスセダサシティプロファイル(herescedasticity profile)に現れる。
論文 参考訳(メタデータ) (2022-11-15T23:53:39Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Structure Learning in Graphical Models from Indirect Observations [17.521712510832558]
本稿では、パラメータ法と非パラメトリック法の両方を用いて、Rp$における$p$次元ランダムベクトル$Xのグラフィカル構造を学習する。
温和な条件下では、グラフ構造推定器が正しい構造を得ることができることを示す。
論文 参考訳(メタデータ) (2022-05-06T19:24:44Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Generalization error of random features and kernel methods:
hypercontractivity and kernel matrix concentration [19.78800773518545]
特徴空間 $mathbb RN$ におけるリッジ回帰と併用したランダム特徴量法の利用について検討する。
これは、カーネルリッジ回帰(KRR)の有限次元近似、またはいわゆる遅延訓練体制におけるニューラルネットワークの様式化されたモデルと見なすことができる。
論文 参考訳(メタデータ) (2021-01-26T06:46:41Z) - Near-Optimal Model Discrimination with Non-Disclosure [19.88145627448243]
まず、二乗損失を持つよく特定された線形モデルについて考察する。
類似した形態のサンプルの複雑さは、たとえ不特定であっても引き起こされる。
論文 参考訳(メタデータ) (2020-12-04T23:52:54Z) - Tree-Projected Gradient Descent for Estimating Gradient-Sparse
Parameters on Graphs [10.846572437131872]
mathbbRp$における勾配スパースパラメータの$boldsymboltheta*の推定について検討した。
損失に対する厳密な凸性および滑らかさの仮定が適切に制限されている場合、この推定器は、$G$とは独立な乗法定数までの2乗誤差リスク $fracs*n log (1+fracps*)$を達成する。
論文 参考訳(メタデータ) (2020-05-31T20:08:13Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。