論文の概要: A framework for paired-sample hypothesis testing for high-dimensional
data
- arxiv url: http://arxiv.org/abs/2309.16274v1
- Date: Thu, 28 Sep 2023 09:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 15:19:29.903515
- Title: A framework for paired-sample hypothesis testing for high-dimensional
data
- Title(参考訳): 高次元データのためのペア・サンプル仮説検定の枠組み
- Authors: Ioannis Bargiotas, Argyris Kalogeratos, Nicolas Vayatis
- Abstract要約: 我々は、各一対のインスタンスを接続するラインセグメントの双分割超平面によって定義される決定規則によって、スコアリング関数が生成できるという考えを提唱した。
まず、各一対の双分極超平面とホッジス・リーマン推定器から導出される集約規則を推定する。
- 参考スコア(独自算出の注目度): 7.400168551191579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The standard paired-sample testing approach in the multidimensional setting
applies multiple univariate tests on the individual features, followed by
p-value adjustments. Such an approach suffers when the data carry numerous
features. A number of studies have shown that classification accuracy can be
seen as a proxy for two-sample testing. However, neither theoretical
foundations nor practical recipes have been proposed so far on how this
strategy could be extended to multidimensional paired-sample testing. In this
work, we put forward the idea that scoring functions can be produced by the
decision rules defined by the perpendicular bisecting hyperplanes of the line
segments connecting each pair of instances. Then, the optimal scoring function
can be obtained by the pseudomedian of those rules, which we estimate by
extending naturally the Hodges-Lehmann estimator. We accordingly propose a
framework of a two-step testing procedure. First, we estimate the bisecting
hyperplanes for each pair of instances and an aggregated rule derived through
the Hodges-Lehmann estimator. The paired samples are scored by this aggregated
rule to produce a unidimensional representation. Second, we perform a Wilcoxon
signed-rank test on the obtained representation. Our experiments indicate that
our approach has substantial performance gains in testing accuracy compared to
the traditional multivariate and multiple testing, while at the same time
estimates each feature's contribution to the final result.
- Abstract(参考訳): 多次元設定における標準的なペアサンプルテストアプローチは、個々の特徴に対して複数の単変量テストを適用し、p値調整を行う。
このようなアプローチは、データが多数の機能を持つ場合に悩まされる。
多くの研究で、分類精度が2サンプルテストのプロキシとして見られることが示されている。
しかし、この戦略を多次元のペア・サンプル・テストにまで拡張する方法に関する理論的基礎や実践的なレシピは提案されていない。
本研究では,各インスタンスを接続するラインセグメントの垂直二分割超平面によって定義される決定規則によってスコアリング関数が生成できる,という考え方を提唱する。
すると、最適スコアリング関数はこれらの規則の擬媒質によって得られ、ホッジス・リーマン推定器を自然に拡張することによって推定する。
そこで我々は,二段階テスト手順の枠組みを提案する。
まず、各一対の双分極超平面とホッジス・リーマン推定器から導出される集約規則を推定する。
ペアのサンプルは、この集約された規則によって得点され、一次元の表現を生成する。
第2に、得られた表現に対してウィルコクソン署名ランクテストを行う。
実験の結果,従来の多変量および多変量試験と比較して,本手法の精度は大幅に向上し,同時に各特徴が最終結果に寄与することを推定した。
関連論文リスト
- Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - Bootstrapped Edge Count Tests for Nonparametric Two-Sample Inference
Under Heterogeneity [5.8010446129208155]
両試料間の差異を正確に検出する新しい非パラメトリック試験法を開発した。
オンラインゲームにおけるユーザ行動検出のための総合シミュレーション研究と応用により,提案試験の非漸近性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-04-26T22:25:44Z) - Spectral Regularized Kernel Two-Sample Tests [7.122170439221738]
MMD (maximum mean discrepancy) two-sample test は,Hellinger 距離で測定された分離境界において最適ではないことを示す。
本稿では、正規化パラメータを選択するためのデータ駆動型戦略を含む、上記のテストの適応バージョンを提案する。
この結果から,テストしきい値がサンプルの置換によって選択されるテストの置換変種について検討した。
論文 参考訳(メタデータ) (2022-12-19T00:42:21Z) - Nonparametric Conditional Local Independence Testing [69.31200003384122]
条件付き局所独立は、連続的な時間プロセス間の独立関係である。
条件付き地域独立の非パラメトリックテストは行われていない。
二重機械学習に基づく非パラメトリックテストを提案する。
論文 参考訳(メタデータ) (2022-03-25T10:31:02Z) - Boost Test-Time Performance with Closed-Loop Inference [85.43516360332646]
そこで本研究では,モデル性能を高めるために,ループ方式でハードクラス化試験サンプルを予測することを提案する。
まず、追加の推論ループを必要とするハードクラス化テストサンプルを識別するためにフィルタリング基準を考案する。
各ハードサンプルに対して、モデルのキャリブレーションを行うために、元の上位$K$予測に基づいて補助学習タスクを構築する。
論文 参考訳(メタデータ) (2022-03-21T10:20:21Z) - Tracking disease outbreaks from sparse data with Bayesian inference [55.82986443159948]
新型コロナウイルス(COVID-19)のパンデミックは、感染発生時の感染率を推定する新たな動機を与える。
標準的な手法は、より細かいスケールで共通する部分的な観測可能性とスパースなデータに対応するのに苦労する。
原理的に部分観測可能なベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-12T20:37:33Z) - Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文 参考訳(メタデータ) (2020-06-21T20:51:09Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Achieving Equalized Odds by Resampling Sensitive Attributes [13.114114427206678]
等価性の概念をほぼ満足する予測モデルを学習するためのフレキシブルなフレームワークを提案する。
この微分可能な関数は、モデルパラメータを等化奇数に向けて駆動するペナルティとして使用される。
本研究は,予測規則が本性質に反するか否かを検出するための公式な仮説テストを開発する。
論文 参考訳(メタデータ) (2020-06-08T00:18:34Z) - Double Generative Adversarial Networks for Conditional Independence
Testing [8.359770027722275]
高次元条件独立テストは統計学と機械学習の重要な構成要素である。
本稿では,GAN(Double Generative Adversarial Network)に基づく推論手法を提案する。
論文 参考訳(メタデータ) (2020-06-03T16:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。