論文の概要: The Sample Complexity of Robust Covariance Testing
- arxiv url: http://arxiv.org/abs/2012.15802v1
- Date: Thu, 31 Dec 2020 18:24:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:21:28.076509
- Title: The Sample Complexity of Robust Covariance Testing
- Title(参考訳): ロバスト共分散テストのサンプル複雑性
- Authors: Ilias Diakonikolas and Daniel M. Kane
- Abstract要約: i. i. d.
形式 $Z = (1-epsilon) X + epsilon B$ の分布からのサンプル。ここで $X$ はゼロ平均で未知の共分散である Gaussian $mathcalN(0, Sigma)$ である。
汚染がない場合、事前の研究は、$O(d)$サンプルを使用するこの仮説テストタスクの単純なテスターを与えた。
サンプル複雑性の上限が $omega(d2)$ for $epsilon$ an arbitrarily small constant and $gamma であることを証明します。
- 参考スコア(独自算出の注目度): 56.98280399449707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of testing the covariance matrix of a high-dimensional
Gaussian in a robust setting, where the input distribution has been corrupted
in Huber's contamination model. Specifically, we are given i.i.d. samples from
a distribution of the form $Z = (1-\epsilon) X + \epsilon B$, where $X$ is a
zero-mean and unknown covariance Gaussian $\mathcal{N}(0, \Sigma)$, $B$ is a
fixed but unknown noise distribution, and $\epsilon>0$ is an arbitrarily small
constant representing the proportion of contamination. We want to distinguish
between the cases that $\Sigma$ is the identity matrix versus $\gamma$-far from
the identity in Frobenius norm.
In the absence of contamination, prior work gave a simple tester for this
hypothesis testing task that uses $O(d)$ samples. Moreover, this sample upper
bound was shown to be best possible, within constant factors. Our main result
is that the sample complexity of covariance testing dramatically increases in
the contaminated setting. In particular, we prove a sample complexity lower
bound of $\Omega(d^2)$ for $\epsilon$ an arbitrarily small constant and $\gamma
= 1/2$. This lower bound is best possible, as $O(d^2)$ samples suffice to even
robustly {\em learn} the covariance. The conceptual implication of our result
is that, for the natural setting we consider, robust hypothesis testing is at
least as hard as robust estimation.
- Abstract(参考訳): 本研究では, 高次元ガウスの共分散行列をロバストな環境で検証する問題について検討する。
具体的には i. i. d.
z = (1-\epsilon) x + \epsilon b$, ここで $x$ はゼロ平均で未知の共分散ガウス的$\mathcal{n}(0, \sigma)$, $b$ は固定だが未知のノイズ分布であり、$\epsilon>0$ は汚染率を表す任意に小さい定数である。
我々は、$\Sigma$が恒等行列である場合と、$\gamma$-farがフロベニウスノルムの恒等行列である場合とを区別したい。
汚染がない場合、事前の研究は、$O(d)$サンプルを使用するこの仮説テストタスクの単純なテスターを与えた。
さらに,このサンプルの上限値が一定因子内で最良であることが示された。
本研究の主な成果は,共分散試験のサンプル複雑性が汚染条件において劇的に増加することである。
特に、サンプル複雑性の下限である$\omega(d^2)$ for $\epsilon$ 任意に小さい定数と$\gamma = 1/2$ を証明する。
この下限は、$O(d^2)$サンプルが共分散を頑健に学習するのに十分であるようにできる。
この結果の概念的意味は、我々が考える自然な設定では、ロバスト仮説テストは少なくともロバストな推定と同じくらい難しいということである。
関連論文リスト
- Dimension-free Private Mean Estimation for Anisotropic Distributions [55.86374912608193]
以前の$mathRd上の分布に関する民間推定者は、次元性の呪いに苦しむ。
本稿では,サンプルの複雑さが次元依存性を改善したアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-01T17:59:53Z) - Sum-of-squares lower bounds for Non-Gaussian Component Analysis [33.80749804695003]
非ガウス成分分析(Non-Gaussian Component Analysis、NGCA)は、高次元データセットにおいて非ガウス方向を求める統計的タスクである。
本稿では Sum-of-Squares フレームワークにおける NGCA の複雑さについて考察する。
論文 参考訳(メタデータ) (2024-10-28T18:19:13Z) - The Sample Complexity of Simple Binary Hypothesis Testing [7.127829790714167]
単純な二項仮説テストのサンプルの複雑さは、いずれの設定でも$p$と$q$の2つの分布を区別するのに必要となる最小のi.d.サンプルである。
この問題は、$alpha = beta$ (prior-free) または $alpha = 1/2$ (Bayesian) でのみ研究されている。
論文 参考訳(メタデータ) (2024-03-25T17:42:32Z) - Fast, Sample-Efficient, Affine-Invariant Private Mean and Covariance
Estimation for Subgaussian Distributions [8.40077201352607]
我々は,高次元共分散認識平均推定のための高速,微分プライベートなアルゴリズムを提案する。
我々のアルゴリズムは$tildemu$を生成し、$|mu|_Sigma leq alpha$が$n gtrsim tfrac d alpha2 + tfracd sqrtlog 1/deltaalpha varepsilon+fracdlog 1/deltavarepsilon$である。
論文 参考訳(メタデータ) (2023-01-28T16:57:46Z) - Gaussian Mean Testing Made Simple [46.03021473600576]
a distribution $p$ on $mathbbRd$ の i.d. サンプルを考えると、このタスクは以下のケースで高い確率で区別することである。
一ページ解析によるガウス平均検定の極めて単純なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-25T01:59:13Z) - Optimal Testing of Discrete Distributions with High Probability [49.19942805582874]
高確率状態に着目して離散分布を試験する問題について検討する。
一定の要素でサンプル最適である近接性および独立性テストのための最初のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-09-14T16:09:17Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z) - Curse of Dimensionality on Randomized Smoothing for Certifiable
Robustness [151.67113334248464]
我々は、他の攻撃モデルに対してスムースな手法を拡張することは困難であることを示す。
我々はCIFARに関する実験結果を示し,その理論を検証した。
論文 参考訳(メタデータ) (2020-02-08T22:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。