論文の概要: Near-optimal multiple testing in Bayesian linear models with
finite-sample FDR control
- arxiv url: http://arxiv.org/abs/2211.02778v3
- Date: Fri, 21 Jul 2023 22:16:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 00:42:12.667611
- Title: Near-optimal multiple testing in Bayesian linear models with
finite-sample FDR control
- Title(参考訳): 有限サンプルFDR制御ベイズ線形モデルにおける準最適多重検定
- Authors: Taejoo Ahn, Licong Lin, Song Mei
- Abstract要約: 高次元変数選択問題では、統計学者はしばしば偽発見率(FDR)を制御する複数の試験手順を設計しようと試みる。
モデルが誤って特定された場合でも、有限サンプルから頻繁なFDRを確実に制御するModel-Xプロシージャを導入する。
提案手法であるPoEdCeは, 後期待, 蒸留ランダム化試験 (dCRT) , およびE値を用いたBenjamini-Hochberg法である。
- 参考スコア(独自算出の注目度): 11.011242089340438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In high dimensional variable selection problems, statisticians often seek to
design multiple testing procedures that control the False Discovery Rate (FDR),
while concurrently identifying a greater number of relevant variables. Model-X
methods, such as Knockoffs and conditional randomization tests, achieve the
primary goal of finite-sample FDR control, assuming a known distribution of
covariates. However, whether these methods can also achieve the secondary goal
of maximizing discoveries remains uncertain. In fact, designing procedures to
discover more relevant variables with finite-sample FDR control is a largely
open question, even within the arguably simplest linear models.
In this paper, we develop near-optimal multiple testing procedures for high
dimensional Bayesian linear models with isotropic covariates. We introduce
Model-X procedures that provably control the frequentist FDR from finite
samples, even when the model is misspecified, and conjecturally achieve
near-optimal power when the data follow the Bayesian linear model. Our proposed
procedure, PoEdCe, incorporates three key ingredients: Posterior Expectation,
distilled Conditional randomization test (dCRT), and the Benjamini-Hochberg
procedure with e-values (eBH). The optimality conjecture of PoEdCe is based on
a heuristic calculation of its asymptotic true positive proportion (TPP) and
false discovery proportion (FDP), which is supported by methods from
statistical physics as well as extensive numerical simulations. Our result
establishes the Bayesian linear model as a benchmark for comparing the power of
various multiple testing procedures.
- Abstract(参考訳): 高次元変数選択問題において、統計学者はしばしば偽発見率(fdr)を制御する複数のテスト手順を設計し、関連する変数の多くを同時に特定しようとする。
Knockoffsや条件付きランダム化テストのようなモデルX法は、共変量の既知の分布を仮定して有限サンプルFDR制御の第一目標を達成する。
しかし、これらの手法が発見の最大化という二次的な目的を達成できるかどうかは不明のままである。
実際、有限サンプルFDR制御によりより関連性の高い変数を発見する手順を設計することは、最も単純な線形モデルでさえも、ほとんど明らかな問題である。
本稿では,等方性共変量を持つ高次元ベイズ線形モデルの近似最適多重試験法を開発する。
ベイズ線形モデルに従えば,モデルが不定形化されている場合でも,有限サンプルから頻繁なfdrを制御するためのmodel-x手順を導入する。
提案手法である poedce には, 後方期待法, 蒸留条件ランダム化試験 (dcrt) および e-値を用いたbenjamini-hochberg 法 (ebh) の3つの主成分が組み込まれている。
poedce の最適性予想は、その漸近的正比例 (tpp) と偽発見比例 (fdp) のヒューリスティックな計算に基づいている。
その結果,複数のテスト手順のパワーを比較するベンチマークとしてベイズ線形モデルが確立された。
関連論文リスト
- Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - Learning Multivariate CDFs and Copulas using Tensor Factorization [39.24470798045442]
データの多変量分布を学習することは、統計学と機械学習における中核的な課題である。
本研究では,多変量累積分布関数(CDF)を学習し,混合確率変数を扱えるようにすることを目的とする。
混合確率変数の合同CDFの任意のグリッドサンプリング版は、単純ベイズモデルとして普遍表現を許容することを示す。
提案モデルの性能を,回帰,サンプリング,データ計算を含むいくつかの合成および実データおよびアプリケーションで実証する。
論文 参考訳(メタデータ) (2022-10-13T16:18:46Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Two-stage Hypothesis Tests for Variable Interactions with FDR Control [10.750902543185802]
本稿では,偽発見率(FDR)を制御した2段階テスト手法を提案する。
我々の2段階の手順は古典的BH法よりも効率的であり、比較または改善された統計力を持つという総合的なシミュレーション研究を通して実証する。
論文 参考訳(メタデータ) (2022-08-31T19:17:00Z) - Error-based Knockoffs Inference for Controlled Feature Selection [49.99321384855201]
本手法では, ノックオフ特徴量, エラーベース特徴重要度統計量, ステップダウン手順を一体化して, エラーベースのノックオフ推定手法を提案する。
提案手法では回帰モデルを指定する必要はなく,理論的保証で特徴選択を処理できる。
論文 参考訳(メタデータ) (2022-03-09T01:55:59Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - The Terminating-Random Experiments Selector: Fast High-Dimensional
Variable Selection with False Discovery Rate Control [10.86851797584794]
T-Rexセレクタは、ユーザ定義のターゲット偽発見率(FDR)を制御する
元の予測器とランダムに生成されたダミー予測器の複数セットの組み合わせで実験を行った。
論文 参考訳(メタデータ) (2021-10-12T14:52:46Z) - AdaPT-GMM: Powerful and robust covariate-assisted multiple testing [0.7614628596146599]
偽発見率(FDR)制御を用いた複数検定の実証的ベイズ法を提案する。
本手法は,アダプティブp値しきい値法(AdaPT)をマスク方式の一般化により洗練する。
我々は、AdaPT-GMMと呼ばれる新しい手法が一貫して高出力を実現することを、広範囲にわたるシミュレーションと実データ例で示す。
論文 参考訳(メタデータ) (2021-06-30T05:06:18Z) - Directional FDR Control for Sub-Gaussian Sparse GLMs [4.229179009157074]
偽発見率(FDR)制御は、統計的に有意にゼロでない結果の少ない数を特定することを目的とする。
偏りのある行列ラッソ推定器を構築し、スパースGLMの最小レートオーラクル不等式による正規性を証明する。
論文 参考訳(メタデータ) (2021-05-02T05:34:32Z) - Probabilistic Circuits for Variational Inference in Discrete Graphical
Models [101.28528515775842]
変分法による離散的グラフィカルモデルの推論は困難である。
エビデンス・ロウアーバウンド(ELBO)を推定するためのサンプリングに基づく多くの手法が提案されている。
Sum Product Networks (SPN) のような確率的回路モデルのトラクタビリティを活用する新しい手法を提案する。
選択的SPNが表現的変動分布として適していることを示し、対象モデルの対数密度が重み付けされた場合、対応するELBOを解析的に計算可能であることを示す。
論文 参考訳(メタデータ) (2020-10-22T05:04:38Z) - Lower bounds in multiple testing: A framework based on derandomized
proxies [107.69746750639584]
本稿では, 各種コンクリートモデルへの適用例を示す, デランドマイズに基づく分析戦略を提案する。
これらの下界のいくつかを数値シミュレーションし、Benjamini-Hochberg (BH) アルゴリズムの実際の性能と密接な関係を示す。
論文 参考訳(メタデータ) (2020-05-07T19:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。