論文の概要: Kernel-Based Tests for Likelihood-Free Hypothesis Testing
- arxiv url: http://arxiv.org/abs/2308.09043v1
- Date: Thu, 17 Aug 2023 15:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 16:15:14.498991
- Title: Kernel-Based Tests for Likelihood-Free Hypothesis Testing
- Title(参考訳): 確率フリー仮説テストのためのカーネルベーステスト
- Authors: Patrik R\'obert Gerber, Tianze Jiang, Yury Polyanskiy, Rui Sun
- Abstract要約: 2つのバランスの取れたクラスから$n$の観測が与えられたとき、追加の$m$入力をラベル付けするタスクを考える。
この問題の特別なケースはよく知られており、$m=1$はバイナリ分類に対応し、$mapprox n$は2サンプルテストに相当する。
最近の研究で、$m$と$n$の間に根本的なトレードオフがあることが判明した。
- 参考スコア(独自算出の注目度): 21.143798051525646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given $n$ observations from two balanced classes, consider the task of
labeling an additional $m$ inputs that are known to all belong to \emph{one} of
the two classes. Special cases of this problem are well-known: with complete
knowledge of class distributions ($n=\infty$) the problem is solved optimally
by the likelihood-ratio test; when $m=1$ it corresponds to binary
classification; and when $m\approx n$ it is equivalent to two-sample testing.
The intermediate settings occur in the field of likelihood-free inference,
where labeled samples are obtained by running forward simulations and the
unlabeled sample is collected experimentally. In recent work it was discovered
that there is a fundamental trade-off between $m$ and $n$: increasing the data
sample $m$ reduces the amount $n$ of training/simulation data needed. In this
work we (a) introduce a generalization where unlabeled samples come from a
mixture of the two classes -- a case often encountered in practice; (b) study
the minimax sample complexity for non-parametric classes of densities under
\textit{maximum mean discrepancy} (MMD) separation; and (c) investigate the
empirical performance of kernels parameterized by neural networks on two tasks:
detection of the Higgs boson and detection of planted DDPM generated images
amidst CIFAR-10 images. For both problems we confirm the existence of the
theoretically predicted asymmetric $m$ vs $n$ trade-off.
- Abstract(参考訳): 2つの平衡クラスからの$n$の観察を与えられた場合、これら2つのクラスの \emph{one} に属することが分かっている追加の$m$入力をラベル付けるタスクを考える。
この問題の特別なケースはよく知られており、クラス分布の完全な知識(n=\infty$)は、確率比テストによって最適に解かれる;$m=1$は二値分類に対応し、$m\approx n$は二値検定と同値である。
中間設定は、ラベル付きサンプルを前方シミュレーションにより取得し、ラベルなしサンプルを実験的に収集する確率フリー推論の分野で行われる。
最近の研究で、$m$と$n$の間に基本的なトレードオフがあることが判明した。
この作品では
(a) ラベルのないサンプルが2つのクラスを混ぜ合わせたものであるという一般化を導入すること。
b) <textit{maximum mean discrepancy} (MMD) 分離の下での非パラメトリックな密度のクラスに対するミニマックスサンプル複雑性の研究
(c) ニューラルネットワークでパラメータ化されたカーネルの2つのタスクにおいて, ヒッグス粒子の検出と, CIFAR-10画像中のDDPM生成画像の検出を行う。
どちらの問題に対しても、理論的に予測された非対称$m$対$n$トレードオフの存在を確認する。
関連論文リスト
- Collaborative non-parametric two-sample testing [55.98760097296213]
目標は、null仮説の$p_v = q_v$が拒否されるノードを特定することである。
グラフ構造を効率的に活用する非パラメトリックコラボレーティブ2サンプルテスト(CTST)フレームワークを提案する。
提案手法は,f-divergence Estimation, Kernel Methods, Multitask Learningなどの要素を統合する。
論文 参考訳(メタデータ) (2024-02-08T14:43:56Z) - Testable Learning with Distribution Shift [9.036777309376697]
分散シフトを伴うテスト可能学習と呼ばれる新しいモデルを定義する。
テスト分布上の分類器の性能を証明可能なアルゴリズムを得る。
ハーフスペースやハーフスペースの交点,決定木といった概念クラスを学ぶ上で,いくつかの肯定的な結果が得られる。
論文 参考訳(メタデータ) (2023-11-25T23:57:45Z) - Out-Of-Domain Unlabeled Data Improves Generalization [0.7589678255312519]
本稿では,ラベルなしデータを半教師付き分類問題に組み込む新しい枠組みを提案する。
ラベルのないサンプルは一般化ギャップを狭めるために利用できることを示す。
我々は、さまざまな合成および実世界のデータセットで実施された実験を通じて、我々の主張を検証する。
論文 参考訳(メタデータ) (2023-09-29T02:00:03Z) - A Manifold Two-Sample Test Study: Integral Probability Metric with
Neural Networks [46.62713126719579]
2サンプルテストは、2つの観測コレクションが同じ分布に従うかどうかを判断する重要な領域である。
低次元多様体上に支持された高次元試料に対する積分確率距離(IPM)に基づく2サンプル試験を提案する。
提案手法は,データ次元ではなく本質的な次元に大きく依存するため,低次元の幾何学的構造に適応する。
論文 参考訳(メタデータ) (2022-05-04T13:03:31Z) - Testing distributional assumptions of learning algorithms [5.204779946147061]
テストレーナー対 $(mathcalA,mathcalT)$ の設計について検討する。
データ中の例の分布がテスタを$mathcalT$に渡せば、データ上の非依存な$mathcalA$の出力を安全に信頼できることを示す。
論文 参考訳(メタデータ) (2022-04-14T19:10:53Z) - Learning Gaussian Mixtures with Generalised Linear Models: Precise
Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。
実験的リスク最小化による高次元推定器の精度を実証する。
合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文 参考訳(メタデータ) (2021-06-07T16:53:56Z) - The Sample Complexity of Robust Covariance Testing [56.98280399449707]
i. i. d.
形式 $Z = (1-epsilon) X + epsilon B$ の分布からのサンプル。ここで $X$ はゼロ平均で未知の共分散である Gaussian $mathcalN(0, Sigma)$ である。
汚染がない場合、事前の研究は、$O(d)$サンプルを使用するこの仮説テストタスクの単純なテスターを与えた。
サンプル複雑性の上限が $omega(d2)$ for $epsilon$ an arbitrarily small constant and $gamma であることを証明します。
論文 参考訳(メタデータ) (2020-12-31T18:24:41Z) - Binary classification with ambiguous training data [69.50862982117127]
教師付き学習では、ドメインの専門家でさえラベル付けが難しい曖昧な(A)サンプルに直面します。
この問題は、ラベルなしサンプルが必ずしも難しいサンプルではないため、半教師付き学習とは大きく異なる。
論文 参考訳(メタデータ) (2020-11-05T00:53:58Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。