論文の概要: Machine Learning for Two-Sample Testing under Right-Censored Data: A Simulation Study
- arxiv url: http://arxiv.org/abs/2409.08201v1
- Date: Thu, 12 Sep 2024 16:38:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 15:45:03.445493
- Title: Machine Learning for Two-Sample Testing under Right-Censored Data: A Simulation Study
- Title(参考訳): 右センサデータに基づく2サンプルテストのための機械学習:シミュレーションによる検討
- Authors: Petr Philonenko, Sergey Postovalov,
- Abstract要約: 本研究の目的は,2サンプル検定における機械学習(ML)手法の有効性を評価することである。
そこで我々は,様々なアーキテクチャを持つMLベースの手法を開発し,それらを2サンプルテストとして実装する。
本稿では,提案手法の学習結果について述べるとともに,従来の2サンプル試験と比較して統計力を検証し,テスト統計の分布を解析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The focus of this study is to evaluate the effectiveness of Machine Learning (ML) methods for two-sample testing with right-censored observations. To achieve this, we develop several ML-based methods with varying architectures and implement them as two-sample tests. Each method is an ensemble (stacking) that combines predictions from classical two-sample tests. This paper presents the results of training the proposed ML methods, examines their statistical power compared to classical two-sample tests, analyzes the distribution of test statistics for the proposed methods when the null hypothesis is true, and evaluates the significance of the features incorporated into the proposed methods. All results from numerical experiments were obtained from a synthetic dataset generated using the Smirnov transform (Inverse Transform Sampling) and replicated multiple times through Monte Carlo simulation. To test the two-sample problem with right-censored observations, one can use the proposed two-sample methods. All necessary materials (source code, example scripts, dataset, and samples) are available on GitHub and Hugging Face.
- Abstract(参考訳): 本研究は,2サンプル検定における機械学習(ML)手法の有効性を評価することを目的とする。
そこで我々は,様々なアーキテクチャを持つMLベースの手法を開発し,それらを2サンプルテストとして実装する。
それぞれの方法は、古典的な2サンプルテストからの予測を組み合わせたアンサンブル(スタックング)である。
本稿では,提案手法の学習結果について,従来の2サンプル試験と比較して統計力を検証し,ヌル仮説が真である場合に提案手法のテスト統計の分布を分析し,提案手法に組み込まれた特徴の意義を評価する。
数値実験の結果はすべて、スミルノフ変換(逆変換サンプリング)を用いて生成された合成データセットから得られ、モンテカルロシミュレーションにより複数回複製された。
右側の観測で2サンプル問題をテストするためには,提案した2サンプル法を用いることができる。
必要な材料(ソースコード、サンプルスクリプト、データセット、サンプル)はすべてGitHubとHugging Faceで利用可能だ。
関連論文リスト
- A Kernel-Based Conditional Two-Sample Test Using Nearest Neighbors (with Applications to Calibration, Regression Curves, and Simulation-Based Inference) [3.622435665395788]
本稿では,2つの条件分布の違いを検出するカーネルベースの尺度を提案する。
2つの条件分布が同じである場合、推定はガウス極限を持ち、その分散はデータから容易に推定できる単純な形式を持つ。
また、条件付き適合性問題に適用可能な推定値を用いた再サンプリングベースのテストも提供する。
論文 参考訳(メタデータ) (2024-07-23T15:04:38Z) - CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective [48.99488315273868]
本研究では,試料内およびサンプル間制約によるサンプルワイドアライメント問題として定式化できる,対照的な知識蒸留手法を提案する。
本手法は, 数値を考慮し, 同一試料中のロジット差を最小化する。
CIFAR-100, ImageNet-1K, MS COCOの3つのデータセットについて総合的な実験を行った。
論文 参考訳(メタデータ) (2024-04-22T11:52:40Z) - Variable Selection in Maximum Mean Discrepancy for Interpretable
Distribution Comparison [9.12501922682336]
2サンプルテストは、同じ分布から2つのデータセットが生成されるかどうかを決定する。
本稿では,2サンプルテストにおける変数選択について検討し,2つの分布の相違の原因となる変数を同定する。
論文 参考訳(メタデータ) (2023-11-02T18:38:39Z) - A framework for paired-sample hypothesis testing for high-dimensional
data [7.400168551191579]
我々は、各一対のインスタンスを接続するラインセグメントの双分割超平面によって定義される決定規則によって、スコアリング関数が生成できるという考えを提唱した。
まず、各一対の双分極超平面とホッジス・リーマン推定器から導出される集約規則を推定する。
論文 参考訳(メタデータ) (2023-09-28T09:17:11Z) - E-Valuating Classifier Two-Sample Tests [11.248868528186332]
我々のテストは、既存の作業量分割確率比テストと予測独立性テストのアイデアを組み合わせたものです。
得られたE値は、逐次2サンプルテストに適している。
論文 参考訳(メタデータ) (2022-10-24T08:18:36Z) - AutoML Two-Sample Test [13.468660785510945]
我々は、目撃者の関数の平均的な相違をテスト統計として捉えた単純なテストを使用し、二乗損失を最小限にすれば、最適なテスト能力を持つ目撃者につながることを証明します。
我々はPythonパッケージAutotstでAutoMLの2サンプルテストの実装を提供する。
論文 参考訳(メタデータ) (2022-06-17T15:41:07Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Empowering Language Understanding with Counterfactual Reasoning [141.48592718583245]
本稿では,反現実的思考を模倣した反現実的推論モデルを提案する。
特に,各実例に対して代表的対実サンプルを生成する生成モジュールを考案し,その対実サンプルと実例サンプルを比較してモデル予測を振り返るレトロスペクティブモジュールを考案した。
論文 参考訳(メタデータ) (2021-06-06T06:36:52Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文 参考訳(メタデータ) (2020-06-21T20:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。