論文の概要: Maximum Mean Discrepancy with Unequal Sample Sizes via Generalized U-Statistics
- arxiv url: http://arxiv.org/abs/2512.13997v1
- Date: Tue, 16 Dec 2025 01:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.538257
- Title: Maximum Mean Discrepancy with Unequal Sample Sizes via Generalized U-Statistics
- Title(参考訳): 一般化U統計による不等値サンプルサイズとの最大平均差
- Authors: Aaron Wei, Milad Jalali, Danica J. Sutherland,
- Abstract要約: 2サンプル試験技術は、最大平均離散性(MMD)の2つの分布から等しいサンプルサイズを仮定することが多い。
これらのメソッドを実際に適用するには、価値あるデータを捨てる必要があり、テストのパワーを必要としない。
一般化されたU統計理論を拡張し、通常のMDD推定器に適用することで、この長期的限界に対処する。
この一般化はまた、不等サンプルサイズでMDDテストのパワーを最適化するための新しい基準を提供する。
- 参考スコア(独自算出の注目度): 12.514069914597782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing two-sample testing techniques, particularly those based on choosing a kernel for the Maximum Mean Discrepancy (MMD), often assume equal sample sizes from the two distributions. Applying these methods in practice can require discarding valuable data, unnecessarily reducing test power. We address this long-standing limitation by extending the theory of generalized U-statistics and applying it to the usual MMD estimator, resulting in new characterization of the asymptotic distributions of the MMD estimator with unequal sample sizes (particularly outside the proportional regimes required by previous partial results). This generalization also provides a new criterion for optimizing the power of an MMD test with unequal sample sizes. Our approach preserves all available data, enhancing test accuracy and applicability in realistic settings. Along the way, we give much cleaner characterizations of the variance of MMD estimators, revealing something that might be surprising to those in the area: while zero MMD implies a degenerate estimator, it is sometimes possible to have a degenerate estimator with nonzero MMD as well; we give a construction and a proof that it does not happen in common situations.
- Abstract(参考訳): 既存の2サンプルテスト技術、特に最大平均離散性(MMD)のカーネルの選択に基づくものは、2つの分布から等しいサンプルサイズを仮定することが多い。
これらのメソッドを実際に適用するには、価値あるデータを捨てる必要があり、テストのパワーを必要としない。
一般化されたU統計理論を拡張し、通常のMDD推定器に適用することにより、この長期的限界に対処し、その結果、不等サンプルサイズを持つMDD推定器の漸近分布(特に以前の部分的な結果によって要求される比例規則の外側)を新たに特徴づける結果となった。
この一般化はまた、不等サンプルサイズでMDDテストのパワーを最適化するための新しい基準を提供する。
われわれのアプローチは、利用可能なすべてのデータを保存し、現実的な設定でテストの精度と適用性を高める。
その過程で、我々はMDD推定器のばらつきをよりクリーンに評価し、その領域で驚くようなことを明らかにした: 0 MMDは縮退推定器を意味するが、非ゼロ MMD の縮退推定器を持つこともできる。
関連論文リスト
- Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
一般のスコアミスマッチ拡散サンプリング器に対する明示的な次元依存性を持つ最初の性能保証を示す。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - A Uniform Concentration Inequality for Kernel-Based Two-Sample Statistics [4.757470449749877]
これらの指標はカーネルベースの2サンプル統計学の一般的な枠組みの下で統一可能であることを示す。
本稿では、上記のカーネルベースの統計量に対して、新しい一様濃度不等式を確立する。
図示的応用として,これらの境界が距離共分散に基づく次元減少などの手順における誤差境界の構成をどのように促進するかを示す。
論文 参考訳(メタデータ) (2024-05-22T22:41:56Z) - Partial identification of kernel based two sample tests with mismeasured
data [5.076419064097733]
最大平均離散性(MMD)のような2サンプルテストは、機械学習アプリケーションにおける2つの分布の違いを検出するためにしばしば使用される。
我々は,1つの分布の非ランダムな$epsilon$%が互いに誤ってグループ化されるような,$epsilon$-contaminationに基づくMDDの推定について検討した。
そこで本研究では,これらの境界を推定する手法を提案し,サンプルサイズが大きくなるにつれてMDD上の最も鋭い限界に収束する推定値を示す。
論文 参考訳(メタデータ) (2023-08-07T13:21:58Z) - Detecting Adversarial Data by Probing Multiple Perturbations Using
Expected Perturbation Score [62.54911162109439]
逆方向検出は、自然分布と逆方向分布の差に基づいて、与えられたサンプルが逆方向であるかどうかを判定することを目的としている。
本研究では,様々な摂動後の標本の予測スコアであるEPS(pre expected perturbation score)を提案する。
EPSに基づく最大平均誤差(MMD)を,試験試料と自然試料との差を測定する指標として開発する。
論文 参考訳(メタデータ) (2023-05-25T13:14:58Z) - On Calibrating Diffusion Probabilistic Models [78.75538484265292]
拡散確率モデル(DPM)は様々な生成タスクにおいて有望な結果を得た。
そこで本研究では,任意の事前学習DPMを校正する簡単な方法を提案する。
キャリブレーション法は1回だけ行い, 得られたモデルをサンプリングに繰り返し使用することができる。
論文 参考訳(メタデータ) (2023-02-21T14:14:40Z) - Keep it Tighter -- A Story on Analytical Mean Embeddings [0.6445605125467574]
カーネル技術は、データサイエンスにおいて最も人気があり柔軟なアプローチの一つである。
平均埋め込みは、最大平均不一致(MMD)と呼ばれる分岐測度をもたらす。
本稿では,基礎となる分布の1つの平均埋め込みが解析的に利用可能である場合のMDD推定の問題に焦点をあてる。
論文 参考訳(メタデータ) (2021-10-15T21:29:27Z) - Generalized Sliced Distances for Probability Distributions [47.543990188697734]
我々は、一般化スライス確率測定(GSPM)と呼ばれる、幅広い確率測定値の族を紹介する。
GSPMは一般化されたラドン変換に根付いており、ユニークな幾何学的解釈を持つ。
GSPMに基づく勾配流を生成モデル応用に適用し、軽度な仮定の下では、勾配流が大域的最適に収束することを示す。
論文 参考訳(メタデータ) (2020-02-28T04:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。