論文の概要: Refereeing the Referees: Evaluating Two-Sample Tests for Validating Generators in Precision Sciences
- arxiv url: http://arxiv.org/abs/2409.16336v1
- Date: Tue, 24 Sep 2024 13:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 08:51:05.787159
- Title: Refereeing the Referees: Evaluating Two-Sample Tests for Validating Generators in Precision Sciences
- Title(参考訳): 参考文献参照:精密科学における発電機検証のための2サンプル試験の評価
- Authors: Samuele Grossi, Marco Letizia, Riccardo Torre,
- Abstract要約: 1次元テストは、他の多変量メトリクスに匹敵する感度のレベルを提供するが、計算コストは著しく低い。
この方法論は、モデル比較のための効率的で標準化されたツールを提供し、より高度なテストのベンチマークとして機能する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a robust methodology to evaluate the performance and computational efficiency of non-parametric two-sample tests, specifically designed for high-dimensional generative models in scientific applications such as in particle physics. The study focuses on tests built from univariate integral probability measures: the sliced Wasserstein distance and the mean of the Kolmogorov-Smirnov statistics, already discussed in the literature, and the novel sliced Kolmogorov-Smirnov statistic. These metrics can be evaluated in parallel, allowing for fast and reliable estimates of their distribution under the null hypothesis. We also compare these metrics with the recently proposed unbiased Fr\'echet Gaussian Distance and the unbiased quadratic Maximum Mean Discrepancy, computed with a quartic polynomial kernel. We evaluate the proposed tests on various distributions, focusing on their sensitivity to deformations parameterized by a single parameter $\epsilon$. Our experiments include correlated Gaussians and mixtures of Gaussians in 5, 20, and 100 dimensions, and a particle physics dataset of gluon jets from the JetNet dataset, considering both jet- and particle-level features. Our results demonstrate that one-dimensional-based tests provide a level of sensitivity comparable to other multivariate metrics, but with significantly lower computational cost, making them ideal for evaluating generative models in high-dimensional settings. This methodology offers an efficient, standardized tool for model comparison and can serve as a benchmark for more advanced tests, including machine-learning-based approaches.
- Abstract(参考訳): 本研究では、粒子物理学などの科学応用における高次元生成モデルに特化して設計された非パラメトリック2サンプル試験の性能と計算効率を評価するための頑健な方法論を提案する。
この研究は、ワッサーシュタイン距離とコルモゴロフ=スミルノフ統計の平均のスライスされた距離と、新しいコルモゴロフ=スミルノフ統計から作られたテストに焦点を当てている。
これらのメトリクスは並列に評価することができ、ヌル仮説の下で分布の高速で信頼性の高い推定を可能にする。
また、これらの指標を、最近提案されたFr'echet Gaussian Distanceと、準多項式カーネルで計算された2次最大平均離散性と比較する。
提案手法は, 変形に対する感度を1パラメータ$\epsilon$でパラメータ化することに着目し, 種々の分布について検討した。
実験では,5,20,100次元のガウスと混合ガウス,およびJetNetデータセットからのグルーオンジェットの粒子物理データセットについて検討した。
その結果, 1次元実験は, 他の多変量指標に匹敵する感度のレベルを提供するが, 計算コストが大幅に低いため, 高次元設定で生成モデルを評価するのに最適であることがわかった。
この方法論は、モデル比較のための効率的で標準化されたツールを提供し、機械学習ベースのアプローチを含む、より高度なテストのベンチマークとして機能する。
関連論文リスト
- A Kernel-Based Conditional Two-Sample Test Using Nearest Neighbors (with Applications to Calibration, Regression Curves, and Simulation-Based Inference) [3.622435665395788]
本稿では,2つの条件分布の違いを検出するカーネルベースの尺度を提案する。
2つの条件分布が同じである場合、推定はガウス極限を持ち、その分散はデータから容易に推定できる単純な形式を持つ。
また、条件付き適合性問題に適用可能な推定値を用いた再サンプリングベースのテストも提供する。
論文 参考訳(メタデータ) (2024-07-23T15:04:38Z) - Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - Boosting the Power of Kernel Two-Sample Tests [4.07125466598411]
最大平均誤差(MMD)に基づくカーネル2サンプルテストは、一般的な距離空間上の2つの分布の違いを検出する最も一般的な方法の1つである。
マハラノビス距離を用いて,複数のカーネル上でMDD推定値を組み合わせることで,カーネルテストのパワーを高める手法を提案する。
論文 参考訳(メタデータ) (2023-02-21T14:14:30Z) - Learning Gaussian Mixtures Using the Wasserstein-Fisher-Rao Gradient
Flow [12.455057637445174]
ガウス混合モデルを用いて非パラメトリック最大推定器(NPMLE)を計算するための新しいアルゴリズムを提案する。
この手法は、ワッサーシュタイン-フィッシャー-ラオ幾何学を備えた確率測度空間上の勾配降下に基づく。
提案アルゴリズムの有効性を確認するため,広範囲な数値実験を行った。
論文 参考訳(メタデータ) (2023-01-04T18:59:35Z) - Evaluating generative models in high energy physics [7.545095780512178]
生成モデルの故障モードに対する評価指標とその感度に関する最初の体系的レビューと調査を行う。
我々はFr'echetとカーネル物理距離(FPDとKPD)の2つの新しい指標を提案し、その性能を計測する様々な実験を行った。
提案手法の有効性を検証し, 新規な注目型生成逆数粒子変換器と, 最先端のメッセージ通過型生成逆数ネットワークジェットシミュレーションモデルとの比較を行った。
論文 参考訳(メタデータ) (2022-11-18T15:36:28Z) - Test Set Sizing Via Random Matrix Theory [91.3755431537592]
本稿ではランダム行列理論の手法を用いて、単純な線形回帰に対して理想的なトレーニング-テストデータ分割を求める。
それは「理想」を整合性計量を満たすものとして定義し、すなわち経験的モデル誤差は実際の測定ノイズである。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解決した最初の論文である。
論文 参考訳(メタデータ) (2021-12-11T13:18:33Z) - Doubly Robust Semiparametric Difference-in-Differences Estimators with
High-Dimensional Data [15.27393561231633]
不均一な治療効果を推定するための2段半パラメトリック差分差分推定器を提案する。
第1段階では、確率スコアを推定するために、一般的な機械学習手法が使用できる。
第2段階ではパラメトリックパラメータと未知関数の両方の収束率を導出する。
論文 参考訳(メタデータ) (2020-09-07T15:14:29Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。
本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文 参考訳(メタデータ) (2020-05-22T22:30:52Z) - Nonparametric Score Estimators [49.42469547970041]
未知分布によって生成されたサンプルの集合からスコアを推定することは確率モデルの推論と学習における基本的なタスクである。
正規化非パラメトリック回帰の枠組みの下で、これらの推定器の統一的なビューを提供する。
カールフリーカーネルと高速収束による計算効果を享受する反復正規化に基づくスコア推定器を提案する。
論文 参考訳(メタデータ) (2020-05-20T15:01:03Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。