論文の概要: A Kernel Distribution Closeness Testing
- arxiv url: http://arxiv.org/abs/2507.12843v1
- Date: Thu, 17 Jul 2025 07:08:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.378554
- Title: A Kernel Distribution Closeness Testing
- Title(参考訳): カーネル分布クローズネステスト
- Authors: Zhijian Zhou, Liuhua Peng, Xunye Tian, Feng Liu,
- Abstract要約: 分布近接性試験(DCT)は、分布対間の距離が少なくとも$epsilon$-farであるかどうかを評価する。
既存のDCT法は主に離散的な一次元空間上で定義された分布対間の不一致を測定する。
2つの複素分布間の分布差の強力な測定法である最大平均誤差(MMD)を導入する。
- 参考スコア(独自算出の注目度): 4.435730822138841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The distribution closeness testing (DCT) assesses whether the distance between a distribution pair is at least $\epsilon$-far. Existing DCT methods mainly measure discrepancies between a distribution pair defined on discrete one-dimensional spaces (e.g., using total variation), which limits their applications to complex data (e.g., images). To extend DCT to more types of data, a natural idea is to introduce maximum mean discrepancy (MMD), a powerful measurement of the distributional discrepancy between two complex distributions, into DCT scenarios. However, we find that MMD's value can be the same for many pairs of distributions that have different norms in the same reproducing kernel Hilbert space (RKHS), making MMD less informative when assessing the closeness levels for multiple distribution pairs. To mitigate the issue, we design a new measurement of distributional discrepancy, norm-adaptive MMD (NAMMD), which scales MMD's value using the RKHS norms of distributions. Based on the asymptotic distribution of NAMMD, we finally propose the NAMMD-based DCT to assess the closeness levels of a distribution pair. Theoretically, we prove that NAMMD-based DCT has higher test power compared to MMD-based DCT, with bounded type-I error, which is also validated by extensive experiments on many types of data (e.g., synthetic noise, real images). Furthermore, we also apply the proposed NAMMD for addressing the two-sample testing problem and find NAMMD-based two-sample test has higher test power than the MMD-based two-sample test in both theory and experiments.
- Abstract(参考訳): 分布近接性試験(DCT)は、分布対間の距離が少なくとも$\epsilon$-farであるかどうかを評価する。
既存のDCT法は主に、離散的な一次元空間(例えば、全変量)で定義された分布対間の不一致を計測し、複雑なデータ(例えば、画像)に制限する。
DCTをより多くの種類のデータに拡張するために、自然なアイデアは、DCTシナリオに2つの複雑な分布間の分布差の強力な測定である最大平均誤差(MMD)を導入することである。
しかし、同じ再生カーネルヒルベルト空間 (RKHS) において異なるノルムを持つ多くの分布に対してMDDの値が同一であることが判明し、複数の分布対の閉度レベルを評価する際にMDDの情報がより少ないことが判明した。
この問題を軽減するため,分布のRKHSノルムを用いてMDDの価値をスケールする分布不一致,ノルム適応MDD(NAMMD)を新たに設計する。
NAMMDの漸近分布に基づいて,NAMMDに基づくDCTを提案し,分布ペアの近接度レベルを評価する。
理論的には,NAMMDに基づくDCTはMDDベースのDCTよりも高い試験能力を有することが証明されている。
さらに,2サンプルテスト問題に対処するために提案したNAMMDを適用し,NAMMDに基づく2サンプルテストは,理論と実験の両方において,MDDに基づく2サンプルテストよりも高い試験能力を有することを示した。
関連論文リスト
- An Efficient Permutation-Based Kernel Two-Sample Test [13.229867216847534]
2サンプル仮説テストは統計学と機械学習の基本的な問題である。
本研究では,最大平均誤差(MMD)のNystr "om approxation"を用いて,計算効率よく実用的なテストアルゴリズムを設計する。
論文 参考訳(メタデータ) (2025-02-19T09:22:48Z) - Multi-Source and Test-Time Domain Adaptation on Multivariate Signals using Spatio-Temporal Monge Alignment [59.75420353684495]
コンピュータビジョンやバイオメディカルデータなどの信号に対する機械学習の応用は、ハードウェアデバイスやセッション記録にまたがる変動のため、しばしば課題に直面している。
本研究では,これらの変動を緩和するために,時空間モンジュアライメント(STMA)を提案する。
我々はSTMAが、非常に異なる設定で取得したデータセット間で、顕著で一貫したパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-07-19T13:33:38Z) - A Uniform Concentration Inequality for Kernel-Based Two-Sample Statistics [4.757470449749877]
これらの指標はカーネルベースの2サンプル統計学の一般的な枠組みの下で統一可能であることを示す。
本稿では、上記のカーネルベースの統計量に対して、新しい一様濃度不等式を確立する。
図示的応用として,これらの境界が距離共分散に基づく次元減少などの手順における誤差境界の構成をどのように促進するかを示す。
論文 参考訳(メタデータ) (2024-05-22T22:41:56Z) - Partial identification of kernel based two sample tests with mismeasured
data [5.076419064097733]
最大平均離散性(MMD)のような2サンプルテストは、機械学習アプリケーションにおける2つの分布の違いを検出するためにしばしば使用される。
我々は,1つの分布の非ランダムな$epsilon$%が互いに誤ってグループ化されるような,$epsilon$-contaminationに基づくMDDの推定について検討した。
そこで本研究では,これらの境界を推定する手法を提案し,サンプルサイズが大きくなるにつれてMDD上の最も鋭い限界に収束する推定値を示す。
論文 参考訳(メタデータ) (2023-08-07T13:21:58Z) - MMD-FUSE: Learning and Combining Kernels for Two-Sample Testing Without
Data Splitting [28.59390881834003]
最大平均離散性(MMD)に基づく2サンプルテストのパワーを最大化する新しい統計法を提案する。
これらのカーネルは、データ分割を避けるために、よく校正されたテストで、データ依存だが置換に依存しない方法でどのように選択できるかを示す。
我々は,合成低次元および実世界の高次元データに対するMDD-FUSEテストの適用性を強調し,その性能を現状のカーネルテストと比較した。
論文 参考訳(メタデータ) (2023-06-14T23:13:03Z) - Spectral Regularized Kernel Two-Sample Tests [7.915420897195129]
MMD (maximum mean discrepancy) two-sample test to be optimal to the terms of the separation boundary in the Hellinger distance。
スペクトル正則化に基づくMDD試験の修正を提案し,MMD試験よりも分離境界が小さく,最小限の試験が最適であることを証明した。
その結果,テストしきい値がエレガントに選択されるテストの置換変種が,サンプルの置換によって決定されることがわかった。
論文 参考訳(メタデータ) (2022-12-19T00:42:21Z) - Targeted Separation and Convergence with Kernel Discrepancies [61.973643031360254]
カーネルベースの不一致測度は、(i)ターゲットPを他の確率測度から分離するか、(ii)Pへの弱収束を制御する必要がある。
本稿では, (i) と (ii) を保証するのに十分な,必要な新しい条件を導出する。
可分距離空間上のMDDに対して、ボヒナー埋め込み可測度を分離するカーネルを特徴づけ、すべての測度を非有界カーネルと分離するための単純な条件を導入する。
論文 参考訳(メタデータ) (2022-09-26T16:41:16Z) - Federated Deep AUC Maximization for Heterogeneous Data with a Constant
Communication Complexity [77.78624443410216]
異種胸部データ検出のための改良型FDAMアルゴリズムを提案する。
本研究は,提案アルゴリズムの通信が機械数に強く依存し,精度レベルにも強く依存していることを示す。
FDAMアルゴリズムのベンチマークデータセットと、異なる組織の医療用胸部X線画像に対する効果を実験により実証した。
論文 参考訳(メタデータ) (2021-02-09T04:05:19Z) - Maximum Mean Discrepancy Test is Aware of Adversarial Attacks [122.51040127438324]
最大平均誤差(MMD)テストは、原則として2つのデータセット間の分布誤差を検出できる。
MMD検査は敵の攻撃に気づいていないことが示されている。
論文 参考訳(メタデータ) (2020-10-22T03:42:12Z) - Learning to Match Distributions for Domain Adaptation [116.14838935146004]
本稿では,ドメイン間分布マッチングを自動的に学習する学習 to Match (L2M)を提案する。
L2Mは、メタネットワークを用いてデータ駆動方式で分布整合損失を学習することにより、誘導バイアスを低減する。
公開データセットの実験は、SOTA法よりもL2Mの方が優れていることを裏付けている。
論文 参考訳(メタデータ) (2020-07-17T03:26:13Z) - Rethink Maximum Mean Discrepancy for Domain Adaptation [77.2560592127872]
本論文は,(1)最大平均距離の最小化は,それぞれソースとクラス内距離の最大化に等しいが,その差を暗黙の重みと共同で最小化し,特徴判別性は低下する,という2つの本質的な事実を理論的に証明する。
いくつかのベンチマークデータセットの実験は、理論的な結果の有効性を証明しただけでなく、我々のアプローチが比較した最先端手法よりも大幅に向上できることを実証した。
論文 参考訳(メタデータ) (2020-07-01T18:25:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。