論文の概要: A Kernel-Based Conditional Two-Sample Test Using Nearest Neighbors (with Applications to Calibration, Regression Curves, and Simulation-Based Inference)
- arxiv url: http://arxiv.org/abs/2407.16550v2
- Date: Thu, 29 Aug 2024 02:06:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 18:35:55.609458
- Title: A Kernel-Based Conditional Two-Sample Test Using Nearest Neighbors (with Applications to Calibration, Regression Curves, and Simulation-Based Inference)
- Title(参考訳): 最近近傍を用いたカーネル型条件付き2サンプル試験(校正・回帰曲線・シミュレーションベース推論への応用)
- Authors: Anirban Chatterjee, Ziang Niu, Bhaswar B. Bhattacharya,
- Abstract要約: 本稿では,2つの条件分布の違いを検出するカーネルベースの尺度を提案する。
2つの条件分布が同じである場合、推定はガウス極限を持ち、その分散はデータから容易に推定できる単純な形式を持つ。
また、条件付き適合性問題に適用可能な推定値を用いた再サンプリングベースのテストも提供する。
- 参考スコア(独自算出の注目度): 3.622435665395788
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper we introduce a kernel-based measure for detecting differences between two conditional distributions. Using the `kernel trick' and nearest-neighbor graphs, we propose a consistent estimate of this measure which can be computed in nearly linear time (for a fixed number of nearest neighbors). Moreover, when the two conditional distributions are the same, the estimate has a Gaussian limit and its asymptotic variance has a simple form that can be easily estimated from the data. The resulting test attains precise asymptotic level and is universally consistent for detecting differences between two conditional distributions. We also provide a resampling based test using our estimate that applies to the conditional goodness-of-fit problem, which controls Type I error in finite samples and is asymptotically consistent with only a finite number of resamples. A method to de-randomize the resampling test is also presented. The proposed methods can be readily applied to a broad range of problems, ranging from classical nonparametric statistics to modern machine learning. Specifically, we explore three applications: testing model calibration, regression curve evaluation, and validation of emulator models in simulation-based inference. We illustrate the superior performance of our method for these tasks, both in simulations as well as on real data. In particular, we apply our method to (1) assess the calibration of neural network models trained on the CIFAR-10 dataset, (2) compare regression functions for wind power generation across two different turbines, and (3) validate emulator models on benchmark examples with intractable posteriors and for generating synthetic `redshift' associated with galaxy images.
- Abstract(参考訳): 本稿では,2つの条件分布の違いを検出するカーネルベースの尺度を提案する。
カーネルトリック」と最寄りのグラフを用いて、ほぼ線形時間(近傍の固定数)で計算できるこの測度を一貫した推定法を提案する。
さらに、2つの条件分布が同じ場合、推定はガウス極限を持ち、その漸近分散はデータから容易に推定できる単純な形式を持つ。
結果として得られた試験は、正確な漸近レベルに達し、2つの条件分布の差を検出するために普遍的に一致している。
また, 有限サンプルにおけるタイプI誤差を制御し, 有限個の再サンプルのみと漸近的に整合性を有する条件付き善良性問題に適用可能な, 推定値を用いた再サンプリングベーステストも提供する。
再サンプリングテストの非ランダム化方法も提示する。
提案手法は、古典的非パラメトリック統計学から現代の機械学習まで、幅広い問題に容易に適用できる。
具体的には,実験モデルキャリブレーション,回帰曲線評価,シミュレーションベース推論におけるエミュレータモデルの検証の3つの応用について検討する。
シミュレーションと実データの両方において,本手法の優れた性能について述べる。
具体的には,(1)CIFAR-10データセットでトレーニングしたニューラルネットワークモデルの校正,(2)2つの異なるタービン間での風力発電の回帰関数の比較,(3)銀河画像に付随する合成「赤方偏移」を生成するためのエミュレータモデルの有効性を検証する。
関連論文リスト
- von Mises Quasi-Processes for Bayesian Circular Regression [57.88921637944379]
円値ランダム関数上の表現的および解釈可能な分布の族を探索する。
結果の確率モデルは、統計物理学における連続スピンモデルと関係を持つ。
後続推論のために、高速マルコフ連鎖モンテカルロサンプリングに寄与するストラトノビッチのような拡張を導入する。
論文 参考訳(メタデータ) (2024-06-19T01:57:21Z) - Wasserstein Generative Regression [6.366148239550708]
非パラメトリック回帰と条件分布学習のための新しい統一的アプローチを提案する。
提案手法は,生成学習フレームワークを用いた回帰関数と条件生成器を同時に推定する。
非漸近誤差境界の導出と適切な仮定の下でのアプローチの分布整合性による理論的保証を提供する。
論文 参考訳(メタデータ) (2023-06-27T02:44:54Z) - Bootstrapped Edge Count Tests for Nonparametric Two-Sample Inference
Under Heterogeneity [5.8010446129208155]
両試料間の差異を正確に検出する新しい非パラメトリック試験法を開発した。
オンラインゲームにおけるユーザ行動検出のための総合シミュレーション研究と応用により,提案試験の非漸近性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-04-26T22:25:44Z) - Nonparametric Conditional Local Independence Testing [69.31200003384122]
条件付き局所独立は、連続的な時間プロセス間の独立関係である。
条件付き地域独立の非パラメトリックテストは行われていない。
二重機械学習に基づく非パラメトリックテストを提案する。
論文 参考訳(メタデータ) (2022-03-25T10:31:02Z) - Comparing two samples through stochastic dominance: a graphical approach [2.867517731896504]
実世界のシナリオでは非決定論的測定が一般的である。
推定累積分布関数に従って2つのサンプルを視覚的に比較するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T13:37:03Z) - Sensing Cox Processes via Posterior Sampling and Positive Bases [56.82162768921196]
本研究では,空間統計学から広く用いられている点過程の適応センシングについて検討する。
我々は、この強度関数を、特別に構築された正の基底で表される、歪んだガウス過程のサンプルとしてモデル化する。
我々の適応センシングアルゴリズムはランゲヴィン力学を用いており、後続サンプリング(textscCox-Thompson)と後続サンプリング(textscTop2)の原理に基づいている。
論文 参考訳(メタデータ) (2021-10-21T14:47:06Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Calibration of Neural Networks using Splines [51.42640515410253]
キャリブレーション誤差の測定は、2つの経験的分布を比較します。
古典的コルモゴロフ・スミルノフ統計テスト(KS)にインスパイアされたビンニングフリーキャリブレーション尺度を導入する。
提案手法は,KS誤差に対する既存の手法と,他の一般的なキャリブレーション手法とを一貫して比較する。
論文 参考訳(メタデータ) (2020-06-23T07:18:05Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Mean-Field Approximation to Gaussian-Softmax Integral with Application
to Uncertainty Estimation [23.38076756988258]
ディープニューラルネットワークにおける不確実性を定量化するための,新しい単一モデルに基づくアプローチを提案する。
平均場近似式を用いて解析的に難解な積分を計算する。
実験的に,提案手法は最先端の手法と比較して競合的に機能する。
論文 参考訳(メタデータ) (2020-06-13T07:32:38Z) - Double Generative Adversarial Networks for Conditional Independence
Testing [8.359770027722275]
高次元条件独立テストは統計学と機械学習の重要な構成要素である。
本稿では,GAN(Double Generative Adversarial Network)に基づく推論手法を提案する。
論文 参考訳(メタデータ) (2020-06-03T16:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。