論文の概要: A Uniform Concentration Inequality for Kernel-Based Two-Sample Statistics
- arxiv url: http://arxiv.org/abs/2405.14051v3
- Date: Mon, 10 Feb 2025 04:27:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:23:37.205832
- Title: A Uniform Concentration Inequality for Kernel-Based Two-Sample Statistics
- Title(参考訳): カーネルベース2サンプル統計量の均一濃度不等式
- Authors: Yijin Ni, Xiaoming Huo,
- Abstract要約: これらの指標はカーネルベースの2サンプル統計学の一般的な枠組みの下で統一可能であることを示す。
本稿では、上記のカーネルベースの統計量に対して、新しい一様濃度不等式を確立する。
図示的応用として,これらの境界が距離共分散に基づく次元減少などの手順における誤差境界の構成をどのように促進するかを示す。
- 参考スコア(独自算出の注目度): 4.757470449749877
- License:
- Abstract: In many contemporary statistical and machine learning methods, one needs to optimize an objective function that depends on the discrepancy between two probability distributions. The discrepancy can be referred to as a metric for distributions. Widely adopted examples of such a metric include Energy Distance (ED), distance Covariance (dCov), Maximum Mean Discrepancy (MMD), and the Hilbert-Schmidt Independence Criterion (HSIC). We show that these metrics can be unified under a general framework of kernel-based two-sample statistics. This paper establishes a novel uniform concentration inequality for the aforementioned kernel-based statistics. Our results provide upper bounds for estimation errors in the associated optimization problems, thereby offering both finite-sample and asymptotic performance guarantees. As illustrative applications, we demonstrate how these bounds facilitate the derivation of error bounds for procedures such as distance covariance-based dimension reduction, distance covariance-based independent component analysis, MMD-based fairness-constrained inference, MMD-based generative model search, and MMD-based generative adversarial networks.
- Abstract(参考訳): 多くの現代統計学および機械学習の手法では、2つの確率分布の相違に依存する目的関数を最適化する必要がある。
この相違は分布の計量として参照できる。
そのような指標の広く採用されている例としては、エネルギー距離(ED)、距離共分散(dCov)、最大平均離散(MMD)、ヒルベルト・シュミット独立基準(HSIC)がある。
これらの指標はカーネルベースの2サンプル統計学の一般的な枠組みの下で統一可能であることを示す。
本稿では、上記のカーネルベースの統計量に対して、新しい一様濃度不等式を確立する。
この結果から, 関連する最適化問題における推定誤差の上限が得られ, 有限サンプルと漸近的な性能保証が提供される。
これらの境界が距離共分散に基づく次元減少、距離共分散に基づく独立成分分析、MDDに基づくフェアネス制約推論、MDDに基づく生成モデル探索、MDDに基づく生成対向ネットワークなどの手順の誤差境界の導出をいかに促進するかを示す。
関連論文リスト
- Consistent Estimation of a Class of Distances Between Covariance Matrices [7.291687946822539]
我々は、それぞれの共分散行列に別々に適用される関数のトレースの和として表現できる距離の族に興味を持っている。
このクラスの距離推定器の挙動に関する統計的解析も行われている。
これらの推定器のガウス性を確立し、対応する手段と分散に対する閉形式表現を提供する中心極限定理を提案する。
論文 参考訳(メタデータ) (2024-09-18T07:36:25Z) - Statistical Framework for Clustering MU-MIMO Wireless via Second Order Statistics [8.195126516665914]
複数のサンプル共分散行列 (SCM) 間の対数-ユークリッド距離の推定は, 試料数と観測サイズが同じ速度で非有界に成長した場合に一定であると考えられる。
本研究では,クラスタリングアルゴリズムの性能を現実的な条件下で正確に予測できる統計フレームワークを開発した。
論文 参考訳(メタデータ) (2024-08-08T14:23:06Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Partial identification of kernel based two sample tests with mismeasured
data [5.076419064097733]
最大平均離散性(MMD)のような2サンプルテストは、機械学習アプリケーションにおける2つの分布の違いを検出するためにしばしば使用される。
我々は,1つの分布の非ランダムな$epsilon$%が互いに誤ってグループ化されるような,$epsilon$-contaminationに基づくMDDの推定について検討した。
そこで本研究では,これらの境界を推定する手法を提案し,サンプルサイズが大きくなるにつれてMDD上の最も鋭い限界に収束する推定値を示す。
論文 参考訳(メタデータ) (2023-08-07T13:21:58Z) - Targeted Separation and Convergence with Kernel Discrepancies [61.973643031360254]
カーネルベースの不一致測度は、(i)ターゲットPを他の確率測度から分離するか、(ii)Pへの弱収束を制御する必要がある。
本稿では, (i) と (ii) を保証するのに十分な,必要な新しい条件を導出する。
可分距離空間上のMDDに対して、ボヒナー埋め込み可測度を分離するカーネルを特徴づけ、すべての測度を非有界カーネルと分離するための単純な条件を導入する。
論文 参考訳(メタデータ) (2022-09-26T16:41:16Z) - Cycle Consistent Probability Divergences Across Different Spaces [38.43511529063335]
確率分布の相違は、統計的推測と機械学習の核心にある。
本研究は, 異方性, 異方性, 異方性, 異なる空間上の分布をマッチングするための, アンバランスなモンジュ最適輸送定式化を提案する。
論文 参考訳(メタデータ) (2021-11-22T16:35:58Z) - Keep it Tighter -- A Story on Analytical Mean Embeddings [0.6445605125467574]
カーネル技術は、データサイエンスにおいて最も人気があり柔軟なアプローチの一つである。
平均埋め込みは、最大平均不一致(MMD)と呼ばれる分岐測度をもたらす。
本稿では,基礎となる分布の1つの平均埋め込みが解析的に利用可能である場合のMDD推定の問題に焦点をあてる。
論文 参考訳(メタデータ) (2021-10-15T21:29:27Z) - Kernel distance measures for time series, random fields and other
structured data [71.61147615789537]
kdiffは、構造化データのインスタンス間の距離を推定するためのカーネルベースの新しい尺度である。
これはインスタンス間の自己類似性と交差類似性の両方を考慮し、距離分布の低い定量値を用いて定義される。
kdiffをクラスタリングと分類問題のための距離尺度として用いた分離性条件について,いくつかの理論的結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T22:54:17Z) - A Note on Optimizing Distributions using Kernel Mean Embeddings [94.96262888797257]
カーネル平均埋め込みは、その無限次元平均埋め込みによる確率測度を表す。
カーネルが特徴的である場合、カーネルの総和密度を持つ分布は密度が高いことを示す。
有限サンプル設定でそのような分布を最適化するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-06-18T08:33:45Z) - Rethink Maximum Mean Discrepancy for Domain Adaptation [77.2560592127872]
本論文は,(1)最大平均距離の最小化は,それぞれソースとクラス内距離の最大化に等しいが,その差を暗黙の重みと共同で最小化し,特徴判別性は低下する,という2つの本質的な事実を理論的に証明する。
いくつかのベンチマークデータセットの実験は、理論的な結果の有効性を証明しただけでなく、我々のアプローチが比較した最先端手法よりも大幅に向上できることを実証した。
論文 参考訳(メタデータ) (2020-07-01T18:25:10Z) - Minimax Optimal Estimation of KL Divergence for Continuous Distributions [56.29748742084386]
Kullback-Leibler の同一および独立に分布するサンプルからの発散は、様々な領域において重要な問題である。
単純で効果的な推定器の1つは、これらのサンプル間の近辺 k に基づいている。
論文 参考訳(メタデータ) (2020-02-26T16:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。