論文の概要: A framework for paired-sample hypothesis testing for high-dimensional
data
- arxiv url: http://arxiv.org/abs/2309.16274v1
- Date: Thu, 28 Sep 2023 09:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 15:19:29.903515
- Title: A framework for paired-sample hypothesis testing for high-dimensional
data
- Title(参考訳): 高次元データのためのペア・サンプル仮説検定の枠組み
- Authors: Ioannis Bargiotas, Argyris Kalogeratos, Nicolas Vayatis
- Abstract要約: 我々は、各一対のインスタンスを接続するラインセグメントの双分割超平面によって定義される決定規則によって、スコアリング関数が生成できるという考えを提唱した。
まず、各一対の双分極超平面とホッジス・リーマン推定器から導出される集約規則を推定する。
- 参考スコア(独自算出の注目度): 7.400168551191579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The standard paired-sample testing approach in the multidimensional setting
applies multiple univariate tests on the individual features, followed by
p-value adjustments. Such an approach suffers when the data carry numerous
features. A number of studies have shown that classification accuracy can be
seen as a proxy for two-sample testing. However, neither theoretical
foundations nor practical recipes have been proposed so far on how this
strategy could be extended to multidimensional paired-sample testing. In this
work, we put forward the idea that scoring functions can be produced by the
decision rules defined by the perpendicular bisecting hyperplanes of the line
segments connecting each pair of instances. Then, the optimal scoring function
can be obtained by the pseudomedian of those rules, which we estimate by
extending naturally the Hodges-Lehmann estimator. We accordingly propose a
framework of a two-step testing procedure. First, we estimate the bisecting
hyperplanes for each pair of instances and an aggregated rule derived through
the Hodges-Lehmann estimator. The paired samples are scored by this aggregated
rule to produce a unidimensional representation. Second, we perform a Wilcoxon
signed-rank test on the obtained representation. Our experiments indicate that
our approach has substantial performance gains in testing accuracy compared to
the traditional multivariate and multiple testing, while at the same time
estimates each feature's contribution to the final result.
- Abstract(参考訳): 多次元設定における標準的なペアサンプルテストアプローチは、個々の特徴に対して複数の単変量テストを適用し、p値調整を行う。
このようなアプローチは、データが多数の機能を持つ場合に悩まされる。
多くの研究で、分類精度が2サンプルテストのプロキシとして見られることが示されている。
しかし、この戦略を多次元のペア・サンプル・テストにまで拡張する方法に関する理論的基礎や実践的なレシピは提案されていない。
本研究では,各インスタンスを接続するラインセグメントの垂直二分割超平面によって定義される決定規則によってスコアリング関数が生成できる,という考え方を提唱する。
すると、最適スコアリング関数はこれらの規則の擬媒質によって得られ、ホッジス・リーマン推定器を自然に拡張することによって推定する。
そこで我々は,二段階テスト手順の枠組みを提案する。
まず、各一対の双分極超平面とホッジス・リーマン推定器から導出される集約規則を推定する。
ペアのサンプルは、この集約された規則によって得点され、一次元の表現を生成する。
第2に、得られた表現に対してウィルコクソン署名ランクテストを行う。
実験の結果,従来の多変量および多変量試験と比較して,本手法の精度は大幅に向上し,同時に各特徴が最終結果に寄与することを推定した。
関連論文リスト
- Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - Bootstrapped Edge Count Tests for Nonparametric Two-Sample Inference
Under Heterogeneity [5.8010446129208155]
両試料間の差異を正確に検出する新しい非パラメトリック試験法を開発した。
オンラインゲームにおけるユーザ行動検出のための総合シミュレーション研究と応用により,提案試験の非漸近性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-04-26T22:25:44Z) - Active Sequential Two-Sample Testing [18.99517340397671]
サンプル測定が安価に利用できる新しいシナリオでは,この2サンプルテストの問題を考慮する。
我々は,emphactiveNIST-sampleテストフレームワークを考案し,逐次クエリだけでなく,emphactivelyクエリも考案した。
実際に、我々はフレームワークのインスタンス化を導入し、いくつかの実験を用いて評価する。
論文 参考訳(メタデータ) (2023-01-30T02:23:49Z) - Spectral Regularized Kernel Two-Sample Tests [7.915420897195129]
MMD (maximum mean discrepancy) two-sample test to be optimal to the terms of the separation boundary in the Hellinger distance。
スペクトル正則化に基づくMDD試験の修正を提案し,MMD試験よりも分離境界が小さく,最小限の試験が最適であることを証明した。
その結果,テストしきい値がエレガントに選択されるテストの置換変種が,サンプルの置換によって決定されることがわかった。
論文 参考訳(メタデータ) (2022-12-19T00:42:21Z) - Boost Test-Time Performance with Closed-Loop Inference [85.43516360332646]
そこで本研究では,モデル性能を高めるために,ループ方式でハードクラス化試験サンプルを予測することを提案する。
まず、追加の推論ループを必要とするハードクラス化テストサンプルを識別するためにフィルタリング基準を考案する。
各ハードサンプルに対して、モデルのキャリブレーションを行うために、元の上位$K$予測に基づいて補助学習タスクを構築する。
論文 参考訳(メタデータ) (2022-03-21T10:20:21Z) - Tracking disease outbreaks from sparse data with Bayesian inference [55.82986443159948]
新型コロナウイルス(COVID-19)のパンデミックは、感染発生時の感染率を推定する新たな動機を与える。
標準的な手法は、より細かいスケールで共通する部分的な観測可能性とスパースなデータに対応するのに苦労する。
原理的に部分観測可能なベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-12T20:37:33Z) - Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文 参考訳(メタデータ) (2020-06-21T20:51:09Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Achieving Equalized Odds by Resampling Sensitive Attributes [13.114114427206678]
等価性の概念をほぼ満足する予測モデルを学習するためのフレキシブルなフレームワークを提案する。
この微分可能な関数は、モデルパラメータを等化奇数に向けて駆動するペナルティとして使用される。
本研究は,予測規則が本性質に反するか否かを検出するための公式な仮説テストを開発する。
論文 参考訳(メタデータ) (2020-06-08T00:18:34Z) - Double Generative Adversarial Networks for Conditional Independence
Testing [8.359770027722275]
高次元条件独立テストは統計学と機械学習の重要な構成要素である。
本稿では,GAN(Double Generative Adversarial Network)に基づく推論手法を提案する。
論文 参考訳(メタデータ) (2020-06-03T16:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。