論文の概要: Knoop: Practical Enhancement of Knockoff with Over-Parameterization for Variable Selection
- arxiv url: http://arxiv.org/abs/2501.17889v1
- Date: Tue, 28 Jan 2025 09:27:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:51.366418
- Title: Knoop: Practical Enhancement of Knockoff with Over-Parameterization for Variable Selection
- Title(参考訳): Knoop: 可変選択のためのオーバーパラメータ化によるノックオフの実践的改善
- Authors: Xiaochen Zhang, Yunfeng Cai, Haoyi Xiong,
- Abstract要約: この研究は、変数選択を強化するために、オーバーパラメータ化(Knoop)を備えた新しいアプローチであるKnockoffを導入する。
Knoopは、元の変数ごとに複数のノックオフ変数を生成し、元の変数とそれらをリッジレス回帰モデルに統合する。
実験はシミュレーションと実世界のデータセットの両方で既存の手法と比較して優れた性能を示す。
- 参考スコア(独自算出の注目度): 27.563529091471935
- License:
- Abstract: Variable selection plays a crucial role in enhancing modeling effectiveness across diverse fields, addressing the challenges posed by high-dimensional datasets of correlated variables. This work introduces a novel approach namely Knockoff with over-parameterization (Knoop) to enhance Knockoff filters for variable selection. Specifically, Knoop first generates multiple knockoff variables for each original variable and integrates them with the original variables into an over-parameterized Ridgeless regression model. For each original variable, Knoop evaluates the coefficient distribution of its knockoffs and compares these with the original coefficients to conduct an anomaly-based significance test, ensuring robust variable selection. Extensive experiments demonstrate superior performance compared to existing methods in both simulation and real-world datasets. Knoop achieves a notably higher Area under the Curve (AUC) of the Receiver Operating Characteristic (ROC) Curve for effectively identifying relevant variables against the ground truth by controlled simulations, while showcasing enhanced predictive accuracy across diverse regression and classification tasks. The analytical results further backup our observations.
- Abstract(参考訳): 変数選択は様々な分野におけるモデリングの有効性を高める上で重要な役割を担い、相関変数の高次元データセットがもたらす課題に対処する。
この研究は、変数選択のためのKnockoffフィルタを強化するために、オーバーパラメータ化(Knoop)を備えたKnockoffという新しいアプローチを導入する。
具体的には、Knoopは最初、元の変数ごとに複数のノックオフ変数を生成し、元の変数とそれらをオーバーパラメータ化されたリッジレス回帰モデルに統合する。
各元の変数について、ノックオフの係数分布を評価し、これらを元の係数と比較し、異常に基づく重要度テストを行い、堅牢な変数選択を保証する。
大規模な実験は、シミュレーションと実世界のデータセットの両方において、既存の手法と比較して優れた性能を示す。
Knoopは受信者操作特性(ROC)曲線の曲線(AUC)の下で顕著に高い領域を達成し、制御されたシミュレーションにより、基底真理に対する関係変数を効果的に識別すると同時に、多様な回帰および分類タスクにまたがる予測精度の向上を示す。
分析結果は我々の観察をさらにバックアップする。
関連論文リスト
- Model-independent variable selection via the rule-based variable priority [1.2771542695459488]
モデルに依存しない新しいアプローチである可変優先度(VarPro)を導入する。
VarProは、人工データを生成したり、予測エラーを評価することなく、ルールを活用する。
VarProはノイズ変数に対して一貫したフィルタリング特性を持つことを示す。
論文 参考訳(メタデータ) (2024-09-13T17:32:05Z) - Optimal Kernel Choice for Score Function-based Causal Discovery [92.65034439889872]
本稿では,データに最も適合する最適なカーネルを自動的に選択する,一般化スコア関数内のカーネル選択手法を提案する。
合成データと実世界のベンチマークの両方で実験を行い,提案手法がカーネル選択法より優れていることを示す。
論文 参考訳(メタデータ) (2024-07-14T09:32:20Z) - Data-driven path collective variables [0.0]
本稿では,集合変数の生成,最適化,比較のための新しい手法を提案する。
結果として得られる集合変数は1次元、解釈可能、微分可能である。
2つの異なるアプリケーションに対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2023-12-21T14:07:47Z) - Effect of hyperparameters on variable selection in random forests [0.0]
理論的分布と経験的遺伝子発現データを用いた2つのシミュレーション研究に基づいて,VitaおよびBoruta変数選択法の効果を評価する。
弱い相関の予測変数の場合、分割変数数のデフォルト値は最適であるが、サンプル分数の小さい値の方が感度が高い。
論文 参考訳(メタデータ) (2023-09-13T13:26:10Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z) - Variable selection with missing data in both covariates and outcomes:
Imputation and machine learning [1.0333430439241666]
欠落したデータ問題は、健康研究で普遍的です。
機械学習はパラメトリックな仮定を弱める。
XGBoostとBARTは、さまざまな設定で最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-04-06T20:18:29Z) - Uncertainty Inspired RGB-D Saliency Detection [70.50583438784571]
本稿では,データラベリングプロセスから学習することで,RGB-D値検出の不確実性を利用した最初のフレームワークを提案する。
そこで本研究では,確率的RGB-Dサリエンシ検出を実現するために,サリエンシデータラベリングプロセスにインスパイアされた生成アーキテクチャを提案する。
6つの挑戦的RGB-Dベンチマークデータセットの結果から,サリエンシマップの分布を学習する際のアプローチの優れた性能が示された。
論文 参考訳(メタデータ) (2020-09-07T13:01:45Z) - Variable selection for Gaussian process regression through a sparse
projection [0.802904964931021]
本稿では,ガウス過程(GP)レグレッションと統合された新しい変数選択手法を提案する。
パラメータの調整と推定の精度を,選択したベンチマーク手法を用いて評価した。
論文 参考訳(メタデータ) (2020-08-25T01:06:10Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Stable Prediction via Leveraging Seed Variable [73.9770220107874]
従来の機械学習手法は、非因果変数によって誘導されるトレーニングデータにおいて、微妙に刺激的な相関を利用して予測する。
本研究では, 条件付き独立性テストに基づくアルゴリズムを提案し, 種子変数を先行変数とする因果変数を分離し, 安定な予測に採用する。
我々のアルゴリズムは、安定した予測のための最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-06-09T06:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。