論文の概要: The Terminating-Knockoff Filter: Fast High-Dimensional Variable
Selection with False Discovery Rate Control
- arxiv url: http://arxiv.org/abs/2110.06048v1
- Date: Tue, 12 Oct 2021 14:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 15:34:24.331772
- Title: The Terminating-Knockoff Filter: Fast High-Dimensional Variable
Selection with False Discovery Rate Control
- Title(参考訳): 終端ノックオフフィルタ:偽発見率制御による高速高次元可変選択
- Authors: Jasin Machkour, Michael Muma, Daniel P. Palomar
- Abstract要約: 本研究では,高次元データに対する高速な変数選択法を提案する。
T-Knockフィルタは、ユーザ定義のターゲット偽発見率(FDR)を制御する
シミュレーションゲノムワイド・アソシエーション研究(GWAS)におけるFDR制御の現状と課題
- 参考スコア(独自算出の注目度): 18.26254785549146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the Terminating-Knockoff (T-Knock) filter, a fast variable
selection method for high-dimensional data. The T-Knock filter controls a
user-defined target false discovery rate (FDR) while maximizing the number of
selected true positives. This is achieved by fusing the solutions of multiple
early terminated random experiments. The experiments are conducted on a
combination of the original data and multiple sets of randomly generated
knockoff variables. A finite sample proof based on martingale theory for the
FDR control property is provided. Numerical simulations show that the FDR is
controlled at the target level while allowing for a high power. We prove under
mild conditions that the knockoffs can be sampled from any univariate
distribution. The computational complexity of the proposed method is derived
and it is demonstrated via numerical simulations that the sequential
computation time is multiple orders of magnitude lower than that of the
strongest benchmark methods in sparse high-dimensional settings. The T-Knock
filter outperforms state-of-the-art methods for FDR control on a simulated
genome-wide association study (GWAS), while its computation time is more than
two orders of magnitude lower than that of the strongest benchmark methods.
- Abstract(参考訳): 本稿では,高次元データに対する高速変数選択法であるT-Knockoffフィルタを提案する。
T-Knockフィルタは、選択された真の正の数を最大化しながら、ユーザ定義のターゲット偽発見率(FDR)を制御する。
これは複数の初期終端ランダム実験の解を融合させることによって達成される。
実験は、元のデータとランダムに生成されたノックオフ変数の複数セットを組み合わせたものである。
FDR制御特性に対するマーチンゲール理論に基づく有限サンプル証明を提供する。
数値シミュレーションにより、FDRは高出力を許容しながら目標レベルで制御されていることが示された。
弱い条件下では、ノックオフが任意の単変量分布からサンプリングできることが証明される。
提案手法の計算複雑性を導出し, 数値シミュレーションにより, 逐次計算時間は, 比較的高次元設定において, 最強ベンチマーク法よりも桁違いに小さいことを実証した。
t-knockフィルタは、シミュレーションゲノムワイドアソシエーション研究(gwas)におけるfdr制御のための最先端の手法よりも優れており、計算時間は最強のベンチマーク手法よりも2桁以上低い。
関連論文リスト
- The Informed Elastic Net for Fast Grouped Variable Selection and FDR Control in Genomics Research [9.6703621796624]
グループ化変数選択特性を維持しながら計算時間を著しく短縮する新しいベースセレクタを提案する。
提案したT-Rex+GVS(IEN)は、所望のグルーピング効果を示し、時間を短縮し、T-Rex+GVS(EN)と同じTPRを実現するが、FDRは低い。
論文 参考訳(メタデータ) (2024-10-07T17:18:25Z) - Solving FDR-Controlled Sparse Regression Problems with Five Million Variables on a Laptop [1.5948860527881505]
T-Rexセレクタは、コンピュータ生成ダミー変数を用いた早期終了ランダム実験に基づく新しい学習フレームワークである。
本稿では,Random Access Memory (RAM) の使用を大幅に削減する,T-Rex の新たな実装である Big T-Rex を提案する。
我々は、Big T-Rexがラップトップ上で500万変数のFDR制御のLasso型問題を30分で効率よく解決できることを示した。
論文 参考訳(メタデータ) (2024-09-27T18:38:51Z) - High-Dimensional False Discovery Rate Control for Dependent Variables [10.86851797584794]
本稿では,変数間の依存関係構造を利用した依存性認識型T-Rexセレクタを提案する。
可変ペナル化機構がFDR制御を保証することを実証する。
グラフィカルモデルとT-Rexフレームワークのパラメータを同時に決定する完全統合最適キャリブレーションアルゴリズムを定式化する。
論文 参考訳(メタデータ) (2024-01-28T22:56:16Z) - Simplex Random Features [53.97976744884616]
ソフトマックスおよびガウスカーネルの非バイアス近似のための新しいランダム特徴(RF)機構であるSimplex Random Features (SimRFs)を提案する。
我々は,これらのカーネルの非バイアス推定値に対して,SimRFが最小平均二乗誤差(MSE)を提供することを示す。
ポイントワイドカーネル推定,非パラメトリック分類,スケーラブルトランスフォーマーなどの設定において,SimRFによる一貫したゲインを示す。
論文 参考訳(メタデータ) (2023-01-31T18:53:39Z) - Near-optimal multiple testing in Bayesian linear models with
finite-sample FDR control [11.011242089340438]
高次元変数選択問題では、統計学者はしばしば偽発見率(FDR)を制御する複数の試験手順を設計しようと試みる。
モデルが誤って特定された場合でも、有限サンプルから頻繁なFDRを確実に制御するModel-Xプロシージャを導入する。
提案手法であるPoEdCeは, 後期待, 蒸留ランダム化試験 (dCRT) , およびE値を用いたBenjamini-Hochberg法である。
論文 参考訳(メタデータ) (2022-11-04T22:56:41Z) - Testing randomness of series generated in Bell's experiment [62.997667081978825]
おもちゃの光ファイバーをベースとしたセットアップを用いてバイナリシリーズを生成し、そのランダム度をVilleの原理に従って評価する。
標準統計指標の電池、ハースト、コルモゴロフ複雑性、最小エントロピー、埋め込みのTakensarity次元、および拡張ディッキー・フラーとクワイアトコフスキー・フィリップス・シュミット・シン(英語版)でテストされ、ステーション指数をチェックする。
Toeplitz 抽出器を不規則級数に適用することにより得られる系列のランダム性のレベルは、非還元原料のレベルと区別できない。
論文 参考訳(メタデータ) (2022-08-31T17:39:29Z) - Sequential Permutation Testing of Random Forest Variable Importance
Measures [68.8204255655161]
そこで本研究では、逐次置換テストと逐次p値推定を用いて、従来の置換テストに関連する高い計算コストを削減することを提案する。
シミュレーション研究の結果、シーケンシャルテストの理論的性質が当てはまることを確認した。
本手法の数値安定性を2つの応用研究で検討した。
論文 参考訳(メタデータ) (2022-06-02T20:16:50Z) - Error-based Knockoffs Inference for Controlled Feature Selection [49.99321384855201]
本手法では, ノックオフ特徴量, エラーベース特徴重要度統計量, ステップダウン手順を一体化して, エラーベースのノックオフ推定手法を提案する。
提案手法では回帰モデルを指定する必要はなく,理論的保証で特徴選択を処理できる。
論文 参考訳(メタデータ) (2022-03-09T01:55:59Z) - Algorithms for Adaptive Experiments that Trade-off Statistical Analysis
with Reward: Combining Uniform Random Assignment and Reward Maximization [50.725191156128645]
トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは適応的な実験を行うのに利用できる。
統計的解析のための一様ランダム化の利点を組み合わせた2つのアルゴリズムを探索する2つのアーム実験のシミュレーションを提案する。
論文 参考訳(メタデータ) (2021-12-15T22:11:58Z) - Directional FDR Control for Sub-Gaussian Sparse GLMs [4.229179009157074]
偽発見率(FDR)制御は、統計的に有意にゼロでない結果の少ない数を特定することを目的とする。
偏りのある行列ラッソ推定器を構築し、スパースGLMの最小レートオーラクル不等式による正規性を証明する。
論文 参考訳(メタデータ) (2021-05-02T05:34:32Z) - Uncertainty Inspired RGB-D Saliency Detection [70.50583438784571]
本稿では,データラベリングプロセスから学習することで,RGB-D値検出の不確実性を利用した最初のフレームワークを提案する。
そこで本研究では,確率的RGB-Dサリエンシ検出を実現するために,サリエンシデータラベリングプロセスにインスパイアされた生成アーキテクチャを提案する。
6つの挑戦的RGB-Dベンチマークデータセットの結果から,サリエンシマップの分布を学習する際のアプローチの優れた性能が示された。
論文 参考訳(メタデータ) (2020-09-07T13:01:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。