論文の概要: The Terminating-Random Experiments Selector: Fast High-Dimensional
Variable Selection with False Discovery Rate Control
- arxiv url: http://arxiv.org/abs/2110.06048v7
- Date: Tue, 12 Mar 2024 19:50:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 19:26:23.891291
- Title: The Terminating-Random Experiments Selector: Fast High-Dimensional
Variable Selection with False Discovery Rate Control
- Title(参考訳): 終端ランダム実験セレクタ:高速高次元
偽発見率制御による可変選択
- Authors: Jasin Machkour, Michael Muma, Daniel P. Palomar
- Abstract要約: T-Rexセレクタは、ユーザ定義のターゲット偽発見率(FDR)を制御する
元の予測器とランダムに生成されたダミー予測器の複数セットの組み合わせで実験を行った。
- 参考スコア(独自算出の注目度): 10.86851797584794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the Terminating-Random Experiments (T-Rex) selector, a fast
variable selection method for high-dimensional data. The T-Rex selector
controls a user-defined target false discovery rate (FDR) while maximizing the
number of selected variables. This is achieved by fusing the solutions of
multiple early terminated random experiments. The experiments are conducted on
a combination of the original predictors and multiple sets of randomly
generated dummy predictors. A finite sample proof based on martingale theory
for the FDR control property is provided. Numerical simulations confirm that
the FDR is controlled at the target level while allowing for high power. We
prove that the dummies can be sampled from any univariate probability
distribution with finite expectation and variance. The computational complexity
of the proposed method is linear in the number of variables. The T-Rex selector
outperforms state-of-the-art methods for FDR control in numerical experiments
and on a simulated genome-wide association study (GWAS), while its sequential
computation time is more than two orders of magnitude lower than that of the
strongest benchmark methods. The open source R package TRexSelector containing
the implementation of the T-Rex selector is available on CRAN.
- Abstract(参考訳): 本稿では,高次元データに対する高速変数選択法であるT-Rexセレクタを提案する。
T-Rexセレクタは、選択した変数数を最大化しながら、ユーザ定義のターゲット偽発見率(FDR)を制御する。
これは、複数の早期終了ランダム実験の解を融合させることによって達成される。
実験は、元の予測器とランダムに生成されたダミー予測器の複数セットの組み合わせで実施される。
FDR制御特性に対するマーチンゲール理論に基づく有限サンプル証明を提供する。
数値シミュレーションにより、FDRは高出力を許容しながら目標レベルで制御されていることが確認される。
ダミーが有限期待と分散を持つ任意の単変量確率分布から標本化できることを証明した。
提案手法の計算複雑性は変数数で線形である。
T-Rexセレクタは、数値実験やシミュレートされたゲノムワイド関連研究(GWAS)において、FDR制御の最先端手法よりも優れており、その逐次計算時間は、最強のベンチマーク手法よりも2桁以上低い。
T-Rexセレクタの実装を含むオープンソースのRパッケージTRexSelectorがCRANで利用可能である。
関連論文リスト
- The Informed Elastic Net for Fast Grouped Variable Selection and FDR Control in Genomics Research [9.6703621796624]
グループ化変数選択特性を維持しながら計算時間を著しく短縮する新しいベースセレクタを提案する。
提案したT-Rex+GVS(IEN)は、所望のグルーピング効果を示し、時間を短縮し、T-Rex+GVS(EN)と同じTPRを実現するが、FDRは低い。
論文 参考訳(メタデータ) (2024-10-07T17:18:25Z) - Solving FDR-Controlled Sparse Regression Problems with Five Million Variables on a Laptop [1.5948860527881505]
T-Rexセレクタは、コンピュータ生成ダミー変数を用いた早期終了ランダム実験に基づく新しい学習フレームワークである。
本稿では,Random Access Memory (RAM) の使用を大幅に削減する,T-Rex の新たな実装である Big T-Rex を提案する。
我々は、Big T-Rexがラップトップ上で500万変数のFDR制御のLasso型問題を30分で効率よく解決できることを示した。
論文 参考訳(メタデータ) (2024-09-27T18:38:51Z) - High-Dimensional False Discovery Rate Control for Dependent Variables [10.86851797584794]
本稿では,変数間の依存関係構造を利用した依存性認識型T-Rexセレクタを提案する。
可変ペナル化機構がFDR制御を保証することを実証する。
グラフィカルモデルとT-Rexフレームワークのパラメータを同時に決定する完全統合最適キャリブレーションアルゴリズムを定式化する。
論文 参考訳(メタデータ) (2024-01-28T22:56:16Z) - Simplex Random Features [53.97976744884616]
ソフトマックスおよびガウスカーネルの非バイアス近似のための新しいランダム特徴(RF)機構であるSimplex Random Features (SimRFs)を提案する。
我々は,これらのカーネルの非バイアス推定値に対して,SimRFが最小平均二乗誤差(MSE)を提供することを示す。
ポイントワイドカーネル推定,非パラメトリック分類,スケーラブルトランスフォーマーなどの設定において,SimRFによる一貫したゲインを示す。
論文 参考訳(メタデータ) (2023-01-31T18:53:39Z) - Near-optimal multiple testing in Bayesian linear models with
finite-sample FDR control [11.011242089340438]
高次元変数選択問題では、統計学者はしばしば偽発見率(FDR)を制御する複数の試験手順を設計しようと試みる。
モデルが誤って特定された場合でも、有限サンプルから頻繁なFDRを確実に制御するModel-Xプロシージャを導入する。
提案手法であるPoEdCeは, 後期待, 蒸留ランダム化試験 (dCRT) , およびE値を用いたBenjamini-Hochberg法である。
論文 参考訳(メタデータ) (2022-11-04T22:56:41Z) - Testing randomness of series generated in Bell's experiment [62.997667081978825]
おもちゃの光ファイバーをベースとしたセットアップを用いてバイナリシリーズを生成し、そのランダム度をVilleの原理に従って評価する。
標準統計指標の電池、ハースト、コルモゴロフ複雑性、最小エントロピー、埋め込みのTakensarity次元、および拡張ディッキー・フラーとクワイアトコフスキー・フィリップス・シュミット・シン(英語版)でテストされ、ステーション指数をチェックする。
Toeplitz 抽出器を不規則級数に適用することにより得られる系列のランダム性のレベルは、非還元原料のレベルと区別できない。
論文 参考訳(メタデータ) (2022-08-31T17:39:29Z) - Sequential Permutation Testing of Random Forest Variable Importance
Measures [68.8204255655161]
そこで本研究では、逐次置換テストと逐次p値推定を用いて、従来の置換テストに関連する高い計算コストを削減することを提案する。
シミュレーション研究の結果、シーケンシャルテストの理論的性質が当てはまることを確認した。
本手法の数値安定性を2つの応用研究で検討した。
論文 参考訳(メタデータ) (2022-06-02T20:16:50Z) - Error-based Knockoffs Inference for Controlled Feature Selection [49.99321384855201]
本手法では, ノックオフ特徴量, エラーベース特徴重要度統計量, ステップダウン手順を一体化して, エラーベースのノックオフ推定手法を提案する。
提案手法では回帰モデルを指定する必要はなく,理論的保証で特徴選択を処理できる。
論文 参考訳(メタデータ) (2022-03-09T01:55:59Z) - Algorithms for Adaptive Experiments that Trade-off Statistical Analysis
with Reward: Combining Uniform Random Assignment and Reward Maximization [50.725191156128645]
トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは適応的な実験を行うのに利用できる。
統計的解析のための一様ランダム化の利点を組み合わせた2つのアルゴリズムを探索する2つのアーム実験のシミュレーションを提案する。
論文 参考訳(メタデータ) (2021-12-15T22:11:58Z) - Directional FDR Control for Sub-Gaussian Sparse GLMs [4.229179009157074]
偽発見率(FDR)制御は、統計的に有意にゼロでない結果の少ない数を特定することを目的とする。
偏りのある行列ラッソ推定器を構築し、スパースGLMの最小レートオーラクル不等式による正規性を証明する。
論文 参考訳(メタデータ) (2021-05-02T05:34:32Z) - Uncertainty Inspired RGB-D Saliency Detection [70.50583438784571]
本稿では,データラベリングプロセスから学習することで,RGB-D値検出の不確実性を利用した最初のフレームワークを提案する。
そこで本研究では,確率的RGB-Dサリエンシ検出を実現するために,サリエンシデータラベリングプロセスにインスパイアされた生成アーキテクチャを提案する。
6つの挑戦的RGB-Dベンチマークデータセットの結果から,サリエンシマップの分布を学習する際のアプローチの優れた性能が示された。
論文 参考訳(メタデータ) (2020-09-07T13:01:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。