論文の概要: A Uniform Concentration Inequality for Kernel-Based Two-Sample Statistics
- arxiv url: http://arxiv.org/abs/2405.14051v3
- Date: Mon, 10 Feb 2025 04:27:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:23:37.205832
- Title: A Uniform Concentration Inequality for Kernel-Based Two-Sample Statistics
- Title(参考訳): カーネルベース2サンプル統計量の均一濃度不等式
- Authors: Yijin Ni, Xiaoming Huo,
- Abstract要約: これらの指標はカーネルベースの2サンプル統計学の一般的な枠組みの下で統一可能であることを示す。
本稿では、上記のカーネルベースの統計量に対して、新しい一様濃度不等式を確立する。
図示的応用として,これらの境界が距離共分散に基づく次元減少などの手順における誤差境界の構成をどのように促進するかを示す。
- 参考スコア(独自算出の注目度): 4.757470449749877
- License:
- Abstract: In many contemporary statistical and machine learning methods, one needs to optimize an objective function that depends on the discrepancy between two probability distributions. The discrepancy can be referred to as a metric for distributions. Widely adopted examples of such a metric include Energy Distance (ED), distance Covariance (dCov), Maximum Mean Discrepancy (MMD), and the Hilbert-Schmidt Independence Criterion (HSIC). We show that these metrics can be unified under a general framework of kernel-based two-sample statistics. This paper establishes a novel uniform concentration inequality for the aforementioned kernel-based statistics. Our results provide upper bounds for estimation errors in the associated optimization problems, thereby offering both finite-sample and asymptotic performance guarantees. As illustrative applications, we demonstrate how these bounds facilitate the derivation of error bounds for procedures such as distance covariance-based dimension reduction, distance covariance-based independent component analysis, MMD-based fairness-constrained inference, MMD-based generative model search, and MMD-based generative adversarial networks.
- Abstract(参考訳): 多くの現代統計学および機械学習の手法では、2つの確率分布の相違に依存する目的関数を最適化する必要がある。
この相違は分布の計量として参照できる。
そのような指標の広く採用されている例としては、エネルギー距離(ED)、距離共分散(dCov)、最大平均離散(MMD)、ヒルベルト・シュミット独立基準(HSIC)がある。
これらの指標はカーネルベースの2サンプル統計学の一般的な枠組みの下で統一可能であることを示す。
本稿では、上記のカーネルベースの統計量に対して、新しい一様濃度不等式を確立する。
この結果から, 関連する最適化問題における推定誤差の上限が得られ, 有限サンプルと漸近的な性能保証が提供される。
これらの境界が距離共分散に基づく次元減少、距離共分散に基づく独立成分分析、MDDに基づくフェアネス制約推論、MDDに基づく生成モデル探索、MDDに基づく生成対向ネットワークなどの手順の誤差境界の導出をいかに促進するかを示す。
関連論文リスト
- A Gradient Analysis Framework for Rewarding Good and Penalizing Bad Examples in Language Models [63.949883238901414]
本稿では,損失関数の勾配解析の特異な角度について述べる。
ExMATEはMLEの優れたサロゲートであり,DPOとMLEの代わりにExMATEを組み合わせることで,統計的(5-7%)と生成的(+18%)の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-29T17:46:18Z) - Partial identification of kernel based two sample tests with mismeasured
data [5.076419064097733]
最大平均離散性(MMD)のような2サンプルテストは、機械学習アプリケーションにおける2つの分布の違いを検出するためにしばしば使用される。
我々は,1つの分布の非ランダムな$epsilon$%が互いに誤ってグループ化されるような,$epsilon$-contaminationに基づくMDDの推定について検討した。
そこで本研究では,これらの境界を推定する手法を提案し,サンプルサイズが大きくなるにつれてMDD上の最も鋭い限界に収束する推定値を示す。
論文 参考訳(メタデータ) (2023-08-07T13:21:58Z) - Optimization of Annealed Importance Sampling Hyperparameters [77.34726150561087]
Annealed Importance Smpling (AIS) は、深層生成モデルの難易度を推定するために使われる一般的なアルゴリズムである。
本稿では、フレキシブルな中間分布を持つパラメータAISプロセスを提案し、サンプリングに少ないステップを使用するようにブリッジング分布を最適化する。
我々は, 最適化AISの性能評価を行い, 深部生成モデルの限界推定を行い, 他の推定値と比較した。
論文 参考訳(メタデータ) (2022-09-27T07:58:25Z) - Maximum Mean Discrepancy for Generalization in the Presence of
Distribution and Missingness Shift [0.0]
MMD損失成分の統合は、モデルが最適化に最適な機能を利用するのに役立ち、テストサンプル毎に可能な限り危険な外挿を避けるのに役立ちます。
このMDDアプローチで処理されたモデルでは、テストセットのパフォーマンス、キャリブレーション、外挿が向上する。
論文 参考訳(メタデータ) (2021-11-19T18:01:05Z) - On the Optimization Landscape of Maximum Mean Discrepancy [26.661542645011046]
生成モデルは現実的な信号の生成に成功している。
確率関数は典型的にはこれらのモデルの多くで難解であるため、確率計算を避けるために「単純化」を行うのが一般的である。
特に、彼らが世界規模で非親密な目標を最小化できるのかは理解されていない。
論文 参考訳(メタデータ) (2021-10-26T07:32:37Z) - Keep it Tighter -- A Story on Analytical Mean Embeddings [0.6445605125467574]
カーネル技術は、データサイエンスにおいて最も人気があり柔軟なアプローチの一つである。
平均埋め込みは、最大平均不一致(MMD)と呼ばれる分岐測度をもたらす。
本稿では,基礎となる分布の1つの平均埋め込みが解析的に利用可能である場合のMDD推定の問題に焦点をあてる。
論文 参考訳(メタデータ) (2021-10-15T21:29:27Z) - Fast and Efficient MMD-based Fair PCA via Optimization over Stiefel
Manifold [41.58534159822546]
本稿では,主成分分析(PCA)について,次元推定条件分布の最大誤差(MMD)を最小化するものとして定義する。
我々は最適性保証を提供し、実践的な環境で理論効果を明示的に示す。
論文 参考訳(メタデータ) (2021-09-23T08:06:02Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Entropy Minimizing Matrix Factorization [102.26446204624885]
NMF(Nonnegative Matrix Factorization)は、広く使用されているデータ分析技術であり、多くの実際のタスクで印象的な結果をもたらしました。
本研究では,上述の問題に対処するために,EMMF (Entropy Minimizing Matrix Factorization framework) を開発した。
通常、外れ値が通常のサンプルよりもはるかに小さいことを考えると、行列分解のために新しいエントロピー損失関数が確立される。
論文 参考訳(メタデータ) (2021-03-24T21:08:43Z) - Rethink Maximum Mean Discrepancy for Domain Adaptation [77.2560592127872]
本論文は,(1)最大平均距離の最小化は,それぞれソースとクラス内距離の最大化に等しいが,その差を暗黙の重みと共同で最小化し,特徴判別性は低下する,という2つの本質的な事実を理論的に証明する。
いくつかのベンチマークデータセットの実験は、理論的な結果の有効性を証明しただけでなく、我々のアプローチが比較した最先端手法よりも大幅に向上できることを実証した。
論文 参考訳(メタデータ) (2020-07-01T18:25:10Z) - Localized Debiased Machine Learning: Efficient Inference on Quantile
Treatment Effects and Beyond [69.83813153444115]
因果推論における(局所)量子化処理効果((L)QTE)の効率的な推定式を検討する。
Debiased Machine Learning (DML)は、高次元のニュアンスを推定するデータ分割手法である。
本稿では、この負担のかかるステップを避けるために、局所的脱バイアス機械学習(LDML)を提案する。
論文 参考訳(メタデータ) (2019-12-30T14:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。