論文の概要: Predictive Data Calibration for Linear Correlation Significance Testing
- arxiv url: http://arxiv.org/abs/2208.07081v1
- Date: Mon, 15 Aug 2022 09:19:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 13:27:18.337050
- Title: Predictive Data Calibration for Linear Correlation Significance Testing
- Title(参考訳): 線形相関有意テストのための予測データ校正
- Authors: Kaustubh R. Patil, Simon B. Eickhoff, Robert Langner
- Abstract要約: ピアソンの相関係数(PCC)は両方の点で欠落していることが知られている。
機械学習に基づく予測データキャリブレーション手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inferring linear relationships lies at the heart of many empirical
investigations. A measure of linear dependence should correctly evaluate the
strength of the relationship as well as qualify whether it is meaningful for
the population. Pearson's correlation coefficient (PCC), the \textit{de-facto}
measure for bivariate relationships, is known to lack in both regards. The
estimated strength $r$ maybe wrong due to limited sample size, and nonnormality
of data. In the context of statistical significance testing, erroneous
interpretation of a $p$-value as posterior probability leads to Type I errors
-- a general issue with significance testing that extends to PCC. Such errors
are exacerbated when testing multiple hypotheses simultaneously. To tackle
these issues, we propose a machine-learning-based predictive data calibration
method which essentially conditions the data samples on the expected linear
relationship. Calculating PCC using calibrated data yields a calibrated
$p$-value that can be interpreted as posterior probability together with a
calibrated $r$ estimate, a desired outcome not provided by other methods.
Furthermore, the ensuing independent interpretation of each test might
eliminate the need for multiple testing correction. We provide empirical
evidence favouring the proposed method using several simulations and
application to real-world data.
- Abstract(参考訳): 線形関係の推測は多くの実証研究の中心にある。
線形依存の尺度は、その関係の強さを正しく評価し、それが人口にとって意味があるかどうかを判断する必要がある。
ピアソン相関係数(Pearson's correlation coefficient, PCC)とは、二変量関係の測度である。
推定強度は、サンプルサイズが限られ、データの非正規性のため、おそらく間違っています。
統計的に重要なテストの文脈では、後続確率としての$p$-valueの誤解釈はタイプIエラーにつながる。
このような誤りは、複数の仮説を同時にテストする際に悪化する。
そこで本研究では,データサンプルを想定した線形関係に基づいて本質的に条件付けする機械学習に基づく予測データキャリブレーション手法を提案する。
キャリブレーションされたデータを用いたPCCの計算では、キャリブレーションされた$p$-値が、キャリブレーションされた$r$推定とともに後続確率と解釈できる。
さらに、各テストの独立した解釈は、複数のテスト修正の必要性をなくす可能性がある。
提案手法を応用した実証的証拠と実世界のデータへの適用について述べる。
関連論文リスト
- Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
さらに、テストポイントがトレーニングセットと非自明な相関を持ち、時系列予測で頻繁に発生するような場合まで分析を拡張します。
我々は多種多様な高次元データにまたがって理論を検証する。
論文 参考訳(メタデータ) (2024-08-08T17:27:29Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Discriminative calibration: Check Bayesian computation from simulations
and flexible classifier [23.91355980551754]
我々は,データからテスト統計を学習するフレキシブルな分類手法により,限界ランクテストを置き換えることを提案する。
ニューラルネットワークと統計的に着想を得た特徴を用いた自動実装について説明するとともに,数値および実データ実験による検証を行う。
論文 参考訳(メタデータ) (2023-05-24T00:18:48Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Causal Inference with Corrupted Data: Measurement Error, Missing Values,
Discretization, and Differential Privacy [6.944765747195337]
高次元の劣化データを用いて半パラメトリックな因果推論モデルを定式化する。
有限サンプル引数による一貫性とガウス近似を証明する。
我々の分析は、行列補完、統計的学習、および半パラメトリック統計に対する漸近的理論的貢献を提供する。
論文 参考訳(メタデータ) (2021-07-06T17:42:49Z) - Testing for Outliers with Conformal p-values [14.158078752410182]
目標は、新しい独立したサンプルが参照データセットと同じ分布に属するかどうかをテストすることである。
そこで本論文では,p-値が有意であるが,異なるテストポイントに対して互いに依存する,広く適用可能なフレームワークである共形推論に基づく解を提案する。
我々は、これらのp値が正に依存し、正確な誤発見率制御を可能にすることを証明している。
論文 参考訳(メタデータ) (2021-04-16T17:59:21Z) - Calibration of Neural Networks using Splines [51.42640515410253]
キャリブレーション誤差の測定は、2つの経験的分布を比較します。
古典的コルモゴロフ・スミルノフ統計テスト(KS)にインスパイアされたビンニングフリーキャリブレーション尺度を導入する。
提案手法は,KS誤差に対する既存の手法と,他の一般的なキャリブレーション手法とを一貫して比較する。
論文 参考訳(メタデータ) (2020-06-23T07:18:05Z) - Stable Prediction via Leveraging Seed Variable [73.9770220107874]
従来の機械学習手法は、非因果変数によって誘導されるトレーニングデータにおいて、微妙に刺激的な相関を利用して予測する。
本研究では, 条件付き独立性テストに基づくアルゴリズムを提案し, 種子変数を先行変数とする因果変数を分離し, 安定な予測に採用する。
我々のアルゴリズムは、安定した予測のための最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-06-09T06:56:31Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z) - Stable Prediction with Model Misspecification and Agnostic Distribution
Shift [41.26323389341987]
機械学習アルゴリズムでは、2つの主要な仮定が性能を保証するために必要である。
1つは、トレーニングデータと同じ分布からテストデータが引き出され、もう1つは、モデルが正しく指定されていることである。
モデルのミススペクテーションの下では、トレーニングデータとテストデータの間の分布シフトは、パラメータ推定の不正確さと未知のテストデータ間の予測の不安定性をもたらす。
可変デコリレーション正規化器と重み付き回帰モデルとを協調的に最適化する新しいDecororrelated Weighting Regression (DWR)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-31T08:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。