論文の概要: Partial identification of kernel based two sample tests with mismeasured
data
- arxiv url: http://arxiv.org/abs/2308.03570v1
- Date: Mon, 7 Aug 2023 13:21:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 13:44:14.374926
- Title: Partial identification of kernel based two sample tests with mismeasured
data
- Title(参考訳): 誤測定データを用いたカーネルベース2つのサンプルテストの部分的同定
- Authors: Ron Nafshi, Maggie Makar
- Abstract要約: 最大平均離散性(MMD)のような2サンプルテストは、機械学習アプリケーションにおける2つの分布の違いを検出するためにしばしば使用される。
我々は,1つの分布の非ランダムな$epsilon$%が互いに誤ってグループ化されるような,$epsilon$-contaminationに基づくMDDの推定について検討した。
そこで本研究では,これらの境界を推定する手法を提案し,サンプルサイズが大きくなるにつれてMDD上の最も鋭い限界に収束する推定値を示す。
- 参考スコア(独自算出の注目度): 5.076419064097733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nonparametric two-sample tests such as the Maximum Mean Discrepancy (MMD) are
often used to detect differences between two distributions in machine learning
applications. However, the majority of existing literature assumes that
error-free samples from the two distributions of interest are available.We
relax this assumption and study the estimation of the MMD under
$\epsilon$-contamination, where a possibly non-random $\epsilon$ proportion of
one distribution is erroneously grouped with the other. We show that under
$\epsilon$-contamination, the typical estimate of the MMD is unreliable.
Instead, we study partial identification of the MMD, and characterize sharp
upper and lower bounds that contain the true, unknown MMD. We propose a method
to estimate these bounds, and show that it gives estimates that converge to the
sharpest possible bounds on the MMD as sample size increases, with a
convergence rate that is faster than alternative approaches. Using three
datasets, we empirically validate that our approach is superior to the
alternatives: it gives tight bounds with a low false coverage rate.
- Abstract(参考訳): 最大平均離散性(MMD)のような非パラメトリックな2サンプルテストは、機械学習アプリケーションにおける2つの分布の違いを検出するためにしばしば使用される。
しかし、既存の文献の大多数は、2つの分布からの誤りのないサンプルが利用可能であると仮定しており、この仮定を緩和し、一方の分布の非ランダムな$\epsilon$比率が誤って他方とグループ化される、$\epsilon$-contaminationの下でmmdの推定を研究する。
我々は、$\epsilon$-contaminationの下では、MDDの典型的な見積もりは信頼できないことを示す。
代わりに、MDDの部分的同定について検討し、真で未知のMDDを含むシャープな上下境界を特徴付ける。
我々は,これらの境界を推定する方法を提案し,サンプルサイズが増加するにつれてmmdの最も鋭い境界に収束する推定値を示し,他の手法よりも収束速度が速いことを示す。
3つのデータセットを使用することで、私たちのアプローチが代替案よりも優れていることを実証的に検証します。
関連論文リスト
- Detecting Adversarial Data by Probing Multiple Perturbations Using
Expected Perturbation Score [62.54911162109439]
逆方向検出は、自然分布と逆方向分布の差に基づいて、与えられたサンプルが逆方向であるかどうかを判定することを目的としている。
本研究では,様々な摂動後の標本の予測スコアであるEPS(pre expected perturbation score)を提案する。
EPSに基づく最大平均誤差(MMD)を,試験試料と自然試料との差を測定する指標として開発する。
論文 参考訳(メタデータ) (2023-05-25T13:14:58Z) - Boosting the Power of Kernel Two-Sample Tests [4.07125466598411]
最大平均誤差(MMD)に基づくカーネル2サンプルテストは、一般的な距離空間上の2つの分布の違いを検出する最も一般的な方法の1つである。
マハラノビス距離を用いて,複数のカーネル上でMDD推定値を組み合わせることで,カーネルテストのパワーを高める手法を提案する。
論文 参考訳(メタデータ) (2023-02-21T14:14:30Z) - Spectral Regularized Kernel Two-Sample Tests [7.915420897195129]
MMD (maximum mean discrepancy) two-sample test to be optimal to the terms of the separation boundary in the Hellinger distance。
スペクトル正則化に基づくMDD試験の修正を提案し,MMD試験よりも分離境界が小さく,最小限の試験が最適であることを証明した。
その結果,テストしきい値がエレガントに選択されるテストの置換変種が,サンプルの置換によって決定されることがわかった。
論文 参考訳(メタデータ) (2022-12-19T00:42:21Z) - A Permutation-free Kernel Two-Sample Test [36.50719125230106]
サンプル分割と学生化に基づく2次時間MDDテスト統計法を提案する。
大きなサンプルサイズの場合、我々の新しいクロスMMDはMDDよりも大幅にスピードアップし、わずかに電力を消費するだけである。
論文 参考訳(メタデータ) (2022-11-27T18:15:52Z) - Targeted Separation and Convergence with Kernel Discrepancies [61.973643031360254]
カーネルベースの不一致測度は、(i)ターゲットPを他の確率測度から分離するか、(ii)Pへの弱収束を制御する必要がある。
本稿では, (i) と (ii) を保証するのに十分な,必要な新しい条件を導出する。
可分距離空間上のMDDに対して、ボヒナー埋め込み可測度を分離するカーネルを特徴づけ、すべての測度を非有界カーネルと分離するための単純な条件を導入する。
論文 参考訳(メタデータ) (2022-09-26T16:41:16Z) - Keep it Tighter -- A Story on Analytical Mean Embeddings [0.6445605125467574]
カーネル技術は、データサイエンスにおいて最も人気があり柔軟なアプローチの一つである。
平均埋め込みは、最大平均不一致(MMD)と呼ばれる分岐測度をもたらす。
本稿では,基礎となる分布の1つの平均埋め込みが解析的に利用可能である場合のMDD推定の問題に焦点をあてる。
論文 参考訳(メタデータ) (2021-10-15T21:29:27Z) - Maximum Mean Discrepancy Test is Aware of Adversarial Attacks [122.51040127438324]
最大平均誤差(MMD)テストは、原則として2つのデータセット間の分布誤差を検出できる。
MMD検査は敵の攻撃に気づいていないことが示されている。
論文 参考訳(メタデータ) (2020-10-22T03:42:12Z) - DEMI: Discriminative Estimator of Mutual Information [5.248805627195347]
連続確率変数間の相互情報を推定することは、高次元データにとってしばしば難解で困難である。
近年の進歩は、相互情報の変動的下界を最適化するためにニューラルネットワークを活用している。
提案手法は,データサンプルペアが結合分布から引き出される確率を提供する分類器の訓練に基づく。
論文 参考訳(メタデータ) (2020-10-05T04:19:27Z) - Multi-label Contrastive Predictive Coding [125.03510235962095]
差分相互情報(MI)推定器は、コントラスト予測符号化(CPC)のような教師なし表現学習法で広く利用されている。
本稿では,複数の正のサンプルを同時に同定する必要がある多ラベル分類問題に基づく新しい推定器を提案する。
同一量の負のサンプルを用いて複数ラベルのCPCが$log m$boundを超えることができる一方で、相互情報の有意な下限であることを示す。
論文 参考訳(メタデータ) (2020-07-20T02:46:21Z) - Learning to Match Distributions for Domain Adaptation [116.14838935146004]
本稿では,ドメイン間分布マッチングを自動的に学習する学習 to Match (L2M)を提案する。
L2Mは、メタネットワークを用いてデータ駆動方式で分布整合損失を学習することにより、誘導バイアスを低減する。
公開データセットの実験は、SOTA法よりもL2Mの方が優れていることを裏付けている。
論文 参考訳(メタデータ) (2020-07-17T03:26:13Z) - Rethink Maximum Mean Discrepancy for Domain Adaptation [77.2560592127872]
本論文は,(1)最大平均距離の最小化は,それぞれソースとクラス内距離の最大化に等しいが,その差を暗黙の重みと共同で最小化し,特徴判別性は低下する,という2つの本質的な事実を理論的に証明する。
いくつかのベンチマークデータセットの実験は、理論的な結果の有効性を証明しただけでなく、我々のアプローチが比較した最先端手法よりも大幅に向上できることを実証した。
論文 参考訳(メタデータ) (2020-07-01T18:25:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。