論文の概要: Sharp Rates in Dependent Learning Theory: Avoiding Sample Size Deflation
for the Square Loss
- arxiv url: http://arxiv.org/abs/2402.05928v1
- Date: Thu, 8 Feb 2024 18:57:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 13:26:24.093891
- Title: Sharp Rates in Dependent Learning Theory: Avoiding Sample Size Deflation
for the Square Loss
- Title(参考訳): 依存学習理論におけるシャープレート:正方形損失に対するサンプルサイズデフレを回避する
- Authors: Ingvar Ziemann, Stephen Tu, George J. Pappas, Nikolai Matni
- Abstract要約: L2$ と $Psi_p$ の位相が我々の仮説クラス $mathscrF$, $mathscrF$ に同値であるときにいつでも、$mathscrF$ は弱準ガウス類であることを示す。
以上の結果から, 混合への直接的な依存は高次項に還元されるため, この問題は実現可能か否かを判断できる。
- 参考スコア(独自算出の注目度): 36.252641692809924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we study statistical learning with dependent ($\beta$-mixing)
data and square loss in a hypothesis class $\mathscr{F}\subset L_{\Psi_p}$
where $\Psi_p$ is the norm $\|f\|_{\Psi_p} \triangleq \sup_{m\geq 1} m^{-1/p}
\|f\|_{L^m} $ for some $p\in [2,\infty]$. Our inquiry is motivated by the
search for a sharp noise interaction term, or variance proxy, in learning with
dependent data. Absent any realizability assumption, typical non-asymptotic
results exhibit variance proxies that are deflated \emph{multiplicatively} by
the mixing time of the underlying covariates process. We show that whenever the
topologies of $L^2$ and $\Psi_p$ are comparable on our hypothesis class
$\mathscr{F}$ -- that is, $\mathscr{F}$ is a weakly sub-Gaussian class:
$\|f\|_{\Psi_p} \lesssim \|f\|_{L^2}^\eta$ for some $\eta\in (0,1]$ -- the
empirical risk minimizer achieves a rate that only depends on the complexity of
the class and second order statistics in its leading term. Our result holds
whether the problem is realizable or not and we refer to this as a \emph{near
mixing-free rate}, since direct dependence on mixing is relegated to an
additive higher order term. We arrive at our result by combining the above
notion of a weakly sub-Gaussian class with mixed tail generic chaining. This
combination allows us to compute sharp, instance-optimal rates for a wide range
of problems. %Our approach, reliant on mixed tail generic chaining, allows us
to obtain sharp, instance-optimal rates. Examples that satisfy our framework
include sub-Gaussian linear regression, more general smoothly parameterized
function classes, finite hypothesis classes, and bounded smoothness classes.
- Abstract(参考訳): 本研究では,従属データ (\beta$-mixing) と二乗損失 (square loss) を用いた統計的学習について,$\mathscr{f}\subset l_{\psi_p}$ ここで$\psi_p$はノルム$\|f\|_{\psi_p} \triangleq \sup_{m\geq 1} m^{-1/p} \|f\|_{l^m} $ for some $p\in [2,\infty]$である。
我々の調査は、依存データを用いた学習において、鋭いノイズ相互作用項(distribution proxy)の探索に動機づけられている。
任意の実現可能性の仮定を欠いて、典型的な非漸近的な結果は、下層の共変量過程の混合時間によってデフレーションされる分散プロキシを示す。
L^2$ と $\Psi_p$ の位相が我々の仮説類 $\mathscr{F}$ -- つまり、$\mathscr{F}$ は弱準ガウス類であることを示す: $\|f\|_{\Psi_p} \lesssim \|f\|_{L^2}^\eta$ for some $\eta\in (0,1]$ -- 経験的リスク最小化は、その先行項におけるクラスと二階統計の複雑さにのみ依存する率を達成する。
この結果から,問題は実現可能かどうかを判断し,混合に対する直接依存は加法的な高次項に委譲されるため,これを<emph{near mixed-free rate}>と呼ぶ。
我々は上記の弱準ガウス類の概念と混合テール一般連鎖を組み合わせることで結果に到達する。
この組み合わせにより、幅広い問題に対して、鋭いインスタンス最適化レートを計算できます。
%のアプローチは、混合テールジェネリックチェインに依存しており、鋭いインスタンス最適化率を得ることができる。
我々のフレームワークを満たす例としては、準ガウス線型回帰、より一般的なスムーズなパラメータ化関数クラス、有限仮説クラス、有界滑らか性クラスがある。
関連論文リスト
- Estimation and Inference in Distributional Reinforcement Learning [28.253677740976197]
サイズ$widetilde Oleft(frac|mathcalS||mathcalA|epsilon2 (1-gamma)4right)$ suffices to ensure the Kolmogorov metric and total variation metric between $hatetapi$ and $etapi$ is below $epsilon$ with high probability。
以上の結果から,多種多様な統計的汎関数の統計的推測への統一的アプローチがもたらされた。
論文 参考訳(メタデータ) (2023-09-29T14:14:53Z) - Statistical Learning under Heterogeneous Distribution Shift [71.8393170225794]
ground-truth predictor is additive $mathbbE[mathbfz mid mathbfx,mathbfy] = f_star(mathbfx) +g_star(mathbfy)$.
論文 参考訳(メタデータ) (2023-02-27T16:34:21Z) - Universality laws for Gaussian mixtures in generalized linear models [22.154969876570238]
一般化線形推定器の族(Theta_1, dots, Theta_M)の合同統計について検討する。
これにより、トレーニングや一般化エラーなど、異なる量の興味の普遍性を証明できる。
我々は,本研究の結果を,アンサンブルや不確実性など,興味のあるさまざまな機械学習タスクに応用することについて議論する。
論文 参考訳(メタデータ) (2023-02-17T15:16:06Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Optimal Gradient Sliding and its Application to Distributed Optimization
Under Similarity [121.83085611327654]
積 $r:=p + q$, ここで$r$は$mu$-strong convex類似性である。
エージェントの通信やローカルコールにマスターされた問題を解決する方法を提案する。
提案手法は$mathcalO(sqrtL_q/mu)$法よりもはるかにシャープである。
論文 参考訳(メタデータ) (2022-05-30T14:28:02Z) - From Smooth Wasserstein Distance to Dual Sobolev Norm: Empirical
Approximation and Statistical Applications [18.618590805279187]
我々は$mathsfW_p(sigma)$が$pth次スムーズな双対ソボレフ$mathsfd_p(sigma)$で制御されていることを示す。
我々は、すべての次元において$sqrtnmathsfd_p(sigma)(hatmu_n,mu)$の極限分布を導出する。
論文 参考訳(メタデータ) (2021-01-11T17:23:24Z) - Near-Optimal SQ Lower Bounds for Agnostically Learning Halfspaces and
ReLUs under Gaussian Marginals [49.60752558064027]
ガウス境界の下では、半空間とReLUを不可知的に学習する基本的な問題について検討する。
我々の下限は、これらのタスクの現在の上限が本質的に最良のものであるという強い証拠を与える。
論文 参考訳(メタデータ) (2020-06-29T17:10:10Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z) - Curse of Dimensionality on Randomized Smoothing for Certifiable
Robustness [151.67113334248464]
我々は、他の攻撃モデルに対してスムースな手法を拡張することは困難であることを示す。
我々はCIFARに関する実験結果を示し,その理論を検証した。
論文 参考訳(メタデータ) (2020-02-08T22:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。