論文の概要: The Price of Tolerance in Distribution Testing
- arxiv url: http://arxiv.org/abs/2106.13414v1
- Date: Fri, 25 Jun 2021 03:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 12:50:59.628330
- Title: The Price of Tolerance in Distribution Testing
- Title(参考訳): 配電試験における耐性の価格
- Authors: Cl\'ement L. Canonne, Ayush Jain, Gautam Kamath, Jerry Li
- Abstract要約: サンプルの複雑さは [fracsqrtnvarepsilon2 + fracnlog n cdotmaxleftfracvarepsilon2 であることが示され、この2つの既知事例の間に円滑なトレードオフをもたらす。
また、p$ と$q$ の両方が未知である寛容同値検定の問題についても同様の特徴を与える。
- 参考スコア(独自算出の注目度): 31.10049510641336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit the problem of tolerant distribution testing. That is, given
samples from an unknown distribution $p$ over $\{1, \dots, n\}$, is it
$\varepsilon_1$-close to or $\varepsilon_2$-far from a reference distribution
$q$ (in total variation distance)? Despite significant interest over the past
decade, this problem is well understood only in the extreme cases. In the
noiseless setting (i.e., $\varepsilon_1 = 0$) the sample complexity is
$\Theta(\sqrt{n})$, strongly sublinear in the domain size. At the other end of
the spectrum, when $\varepsilon_1 = \varepsilon_2/2$, the sample complexity
jumps to the barely sublinear $\Theta(n/\log n)$. However, very little is known
about the intermediate regime. We fully characterize the price of tolerance in
distribution testing as a function of $n$, $\varepsilon_1$, $\varepsilon_2$, up
to a single $\log n$ factor. Specifically, we show the sample complexity to be
\[\tilde \Theta\left(\frac{\sqrt{n}}{\varepsilon_2^{2}} + \frac{n}{\log n}
\cdot \max
\left\{\frac{\varepsilon_1}{\varepsilon_2^2},\left(\frac{\varepsilon_1}{\varepsilon_2^2}\right)^{\!\!2}\right\}\right),\]
providing a smooth tradeoff between the two previously known cases. We also
provide a similar characterization for the problem of tolerant equivalence
testing, where both $p$ and $q$ are unknown. Surprisingly, in both cases, the
main quantity dictating the sample complexity is the ratio
$\varepsilon_1/\varepsilon_2^2$, and not the more intuitive
$\varepsilon_1/\varepsilon_2$. Of particular technical interest is our lower
bound framework, which involves novel approximation-theoretic tools required to
handle the asymmetry between $\varepsilon_1$ and $\varepsilon_2$, a challenge
absent from previous works.
- Abstract(参考訳): 寛容分布テストの問題を再検討する。
つまり、未知の分布のサンプルが$p$ over $\{1, \dots, n\}$であるなら、$\varepsilon_1$-close to or $\varepsilon_2$-far from a reference distribution$q$ (the total variation distance)?
過去10年間の大きな関心にもかかわらず、この問題は極端なケースでのみよく理解されている。
ノイズのない設定(すなわち$\varepsilon_1 = 0$)では、サンプルの複雑さは$\Theta(\sqrt{n})$で、ドメインサイズは強いサブ線形である。
スペクトルの反対側では、$\varepsilon_1 = \varepsilon_2/2$ の場合、サンプルの複雑さはわずかにサブ線形な $\Theta(n/\log n)$ にジャンプする。
しかし、中間体制についてはほとんど知られていない。
分散テストにおける寛容の価格は、$n$, $\varepsilon_1$, $\varepsilon_2$の関数から、単一の$\log n$ factorまで、完全に特徴づける。
具体的には、サンプルの複雑性は \[\tilde \theta\left(\frac{\sqrt{n}}{\varepsilon_2^{2}} + \frac{n}{\log n} \cdot \max \left\{\frac{\varepsilon_1}{\varepsilon_2^2},\left(\frac{\varepsilon_1}{\varepsilon_2^2}\right)^{\!\!
また、p$ と$q$ の両方が未知である寛容同値検定の問題についても同様の特徴を与える。
いずれの場合も、サンプルの複雑さを決定する主な量は、$\varepsilon_1/\varepsilon_2^2$であり、より直感的な$\varepsilon_1/\varepsilon_2$ではない。
特に技術的な関心は下界フレームワークであり、$\varepsilon_1$と$\varepsilon_2$の間の非対称性を扱うのに必要な新しい近似理論ツールを含んでいる。
関連論文リスト
- Almost Minimax Optimal Best Arm Identification in Piecewise Stationary Linear Bandits [55.957560311008926]
そこで本研究では,各文脈の平均値によって腕の質を計測するPSLBモデルを提案する。
PS$varepsilon$BAI$+$は、$varepsilon$-optimal armを、確率$ge 1-delta$と最小限のサンプルで識別することが保証される。
論文 参考訳(メタデータ) (2024-10-10T06:15:42Z) - Coresets for Multiple $\ell_p$ Regression [47.790126028106734]
サイズ $tilde O(varepsilon-2d)$ for $p2$ と $tilde O(varepsilon-pdp/2)$ for $p>2$ のコアセットを構築します。
1p2$の場合、すべての行列は$tilde O(varepsilon-1k)$行のサブセットを持ち、$(varepsilon-1k)$-a optimal $k$-dimensional subspace for $ell_p$ subspace approximationである。
論文 参考訳(メタデータ) (2024-06-04T15:50:42Z) - Optimal bounds for $\ell_p$ sensitivity sampling via $\ell_2$ augmentation [56.403488578703865]
我々は$ell$ Sensitivities を $ell$ Sensitivities で拡張することにより、最適な線形 $tilde O(varepsilon-2mu2 d)$ サンプリング複雑性のより良い境界が得られることを示した。
また、ロジスティック回帰のために、$tilde O(varepsilon-2mu2 d)$ sensitivity sample bound を得る。
論文 参考訳(メタデータ) (2024-06-01T07:03:40Z) - Near-Optimal Distributed Minimax Optimization under the Second-Order Similarity [22.615156512223763]
本研究では,有限サム構造を目的とする分散楽観的すべり(SVOGS)法を提案する。
我々は$mathcal O(delta D2/varepsilon)$、$mathcal O(n+sqrtndelta D2/varepsilon)$、$tildemathcal O(n+sqrtndelta+L)D2/varepsilon)$の局所呼び出しを証明している。
論文 参考訳(メタデータ) (2024-05-25T08:34:49Z) - Estimation of Entropy in Constant Space with Improved Sample Complexity [14.718968517824756]
サンプルの複雑さを$(k/epsilon2)cdot textpolylog (1/epsilon)$に削減する新しい定数メモリスキームを提供する。
これは$textpolylog (1/epsilon)$ factorまで最適であると推測する。
論文 参考訳(メタデータ) (2022-05-19T18:51:28Z) - Tight Bounds on the Hardness of Learning Simple Nonparametric Mixtures [9.053430799456587]
有限混合系における非パラメトリック分布の学習問題について検討する。
このようなモデルにおける成分分布を学習するために、サンプルの複雑さに厳密な境界を定めている。
論文 参考訳(メタデータ) (2022-03-28T23:53:48Z) - Threshold Phenomena in Learning Halfspaces with Massart Noise [56.01192577666607]
ガウス境界の下でのマスアートノイズ付きmathbbRd$におけるPAC学習ハーフスペースの問題について検討する。
この結果は,Massartモデルにおける学習ハーフスペースの複雑さを定性的に特徴づけるものである。
論文 参考訳(メタデータ) (2021-08-19T16:16:48Z) - Self-training Converts Weak Learners to Strong Learners in Mixture
Models [86.7137362125503]
擬似ラベルの $boldsymbolbeta_mathrmpl$ が,最大$C_mathrmerr$ の分類誤差を達成可能であることを示す。
さらに、ロジスティックな損失に対して勾配降下を実行することで、ラベル付き例のみを使用して、分類誤差が$C_mathrmerr$で擬ラベルの $boldsymbolbeta_mathrmpl$ が得られることを示す。
論文 参考訳(メタデータ) (2021-06-25T17:59:16Z) - Infinite-Horizon Offline Reinforcement Learning with Linear Function
Approximation: Curse of Dimensionality and Algorithm [46.36534144138337]
本稿では,オフライン強化学習におけるポリシー評価のサンプル複雑さについて検討する。
低分布シフトの仮定の下では、最大$oleft(maxleft fracleftvert thetapirightvert _24varepsilon4logfracddelta,frac1varepsilon2left(d+logfrac1deltaright)right right)$サンプルを必要とするアルゴリズムがあることを示す。
論文 参考訳(メタデータ) (2021-03-17T18:18:57Z) - Model-Free Reinforcement Learning: from Clipped Pseudo-Regret to Sample
Complexity [59.34067736545355]
S$状態、$A$アクション、割引係数$gamma in (0,1)$、近似しきい値$epsilon > 0$の MDP が与えられた場合、$epsilon$-Optimal Policy を学ぶためのモデルなしアルゴリズムを提供する。
十分小さな$epsilon$の場合、サンプルの複雑さで改良されたアルゴリズムを示す。
論文 参考訳(メタデータ) (2020-06-06T13:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。