論文の概要: Virtual Dummies: Enabling Scalable FDR-Controlled Variable Selection via Sequential Sampling of Null Features
- arxiv url: http://arxiv.org/abs/2604.07464v1
- Date: Wed, 08 Apr 2026 18:04:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.491688
- Title: Virtual Dummies: Enabling Scalable FDR-Controlled Variable Selection via Sequential Sampling of Null Features
- Title(参考訳): 仮想ダミー:Null特徴の逐次サンプリングによるスケーラブルなFDR制御変数選択の実現
- Authors: Taulant Koka, Jasin Machkour, Daniel P. Palomar, Michael Muma,
- Abstract要約: 高次元変数選択、特にゲノミクスでは、数百万の予測子にスケールするエラー制御手順が必要となる。
適応的に進化する低次元部分空間への射影を通してのみ、互換性のあるセレクタが非選択ダミーと相互作用することを示す。
我々は、仮想ダミーLARS(VD-LARS)により理論をインスタンス化し、T-Rexセレクタの正確な選択法とFDR保証を保ちながら、メモリとランタイムを桁違いに削減する。
- 参考スコア(独自算出の注目度): 15.156772050538315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-dimensional variable selection, particularly in genomics, requires error-controlling procedures that scale to millions of predictors. The Terminating-Random Experiments (T-Rex) selector achieves false discovery rate (FDR) control by aggregating results of early terminated random experiments, each combining original predictors with i.i.d. synthetic null variables (dummies). At biobank scales, however, explicit dummy augmentation requires terabytes of memory. We demonstrate that this bottleneck is not fundamental. Formalizing the information flow of forward selection through a filtration, we show that compatible selectors interact with unselected dummies solely through projections onto an adaptively evolving low-dimensional subspace. For rotationally invariant dummy distributions, we derive an adaptive stick-breaking construction sampling these projections from their exact conditional distribution given the selection history, thereby eliminating dummy matrix materialization. We prove a pathwise universality theorem: under mild delocalization conditions, selection paths driven by generic standardized i.i.d. dummies converge to the same Gaussian limit. We instantiate the theory through Virtual Dummy LARS (VD-LARS), reducing memory and runtime by several orders of magnitude while preserving the exact selection law and FDR guarantees of the T-Rex selector. Experiments on realistic genome-wide association study data confirm that VD-T-Rex controls FDR and achieves power at scales where all competing methods either fail or time out.
- Abstract(参考訳): 高次元変数選択、特にゲノミクスでは、数百万の予測子にスケールするエラー制御手順が必要となる。
終端ランダム実験(T-Rex)セレクタは、初期終了ランダム実験の結果を集約することにより、偽発見率(FDR)制御を達成し、それぞれが元の予測子と合成ヌル変数(ダミー)を組み合わせる。
しかし、バイオバンクスケールでは、明示的なダミー増大にはテラバイトのメモリが必要である。
このボトルネックが基本的なものではないことを実証します。
フィルタを用いて前方選択の情報フローを定式化し、適応的に進化する低次元部分空間への射影を通してのみ、互換性のあるセレクタが未選択ダミーと相互作用することを示す。
回転不変ダミー分布に対して, 選択履歴が与えられた正確な条件分布から, 適応的スティック破砕構造を抽出し, ダミー行列の物質化を除去する。
緩やかな非局在化条件の下では、一般的な標準化(すなわちダミー)によって駆動される選択経路は同じガウス極限に収束する。
我々は、仮想ダミーLARS(VD-LARS)により理論をインスタンス化し、T-Rexセレクタの正確な選択法とFDR保証を保ちながら、メモリとランタイムを桁違いに削減する。
VD-T-RexはFDRを制御し、競合するすべてのメソッドが失敗またはタイムアウトするスケールでのパワーを達成する。
関連論文リスト
- Is Flow Matching Just Trajectory Replay for Sequential Data? [46.770624059457724]
時系列生成には、フローマッチング(FM)がますます使われている。
一般的な力学構造を学ぶのか、それとも単に効果的な「軌道再生」を行うのかはよく分かっていない。
インプリッドサンプリングは、非パラメトリックなメモリ拡張型連続時間力学系を構成するODEであることを示す。
論文 参考訳(メタデータ) (2026-02-09T06:48:45Z) - Phase-space entropy at acquisition reflects downstream learnability [54.4100065023873]
楽器分解位相空間に基づく取得レベルスカラー$S_mathcal B$を提案する。
本稿では, (S_mathcal B) が周期サンプリングの位相空間コヒーレンスを正確に同定できることを理論的に示す。
$|S_mathcal B|$は一貫してサンプリングジオメトリをランク付けし、トレーニングなしで下流での再構築/認識の困難を予測します。
論文 参考訳(メタデータ) (2025-12-22T10:03:51Z) - Provable FDR Control for Deep Feature Selection: Deep MLPs and Beyond [0.0]
深層ニューラルネットワークに基づくフレキシブルな特徴選択フレームワークを開発し,FDR(False discovery rate)を概ね制御する。
勾配に基づく特徴ベクトルの各座標は、限界正規近似を許容し、FDR制御の有効性を支持することを示す。
論文 参考訳(メタデータ) (2025-12-04T11:46:06Z) - LEC: Linear Expectation Constraints for False-Discovery Control in Selective Prediction and Routing Systems [95.35293543918762]
大規模言語モデル(LLM)はしばしば信頼できない答えを生成するが、不確実性のある手法は誤った予測と完全に区別することができない。
我々は、この問題を、偽発見率(FDR)制御のレンズを通して解決し、全ての許容された予測のうち、エラーの割合が目標のリスクレベルを超えないことを保証する。
本稿では,線形期待制約を強制することで,選択予測を制約付き決定問題として再解釈するLECを提案する。
論文 参考訳(メタデータ) (2025-12-01T11:27:09Z) - Regression-Based Estimation of Causal Effects in the Presence of Selection Bias and Confounding [52.1068936424622]
治療が介入によって設定された場合、対象変数$Y$に対して、予測因果効果$E[Y|do(X)]$を推定する問題を考える。
選択バイアスや欠点のない設定では、$E[Y|do(X)] = E[Y|X]$ となる。
選択バイアスとコンバウンディングの両方を組み込んだフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T13:43:37Z) - Model-based causal feature selection for general response types [8.228587135343071]
Invariant causal prediction (ICP) は、不均一な設定からのデータを必要とする因果的特徴選択の手法である。
我々は変換モデル(TRAM)ベースのICPを開発し、連続的、分類的、カウント型、非形式的に検閲された応答を可能にする。
我々は、オープンソースのRパッケージ「tramicp」を提供し、シミュレーションデータに対する我々のアプローチを評価し、重篤な患者の生存の因果的特徴を調査する事例研究を行った。
論文 参考訳(メタデータ) (2023-09-22T12:42:48Z) - The Terminating-Random Experiments Selector: Fast High-Dimensional
Variable Selection with False Discovery Rate Control [10.86851797584794]
T-Rexセレクタは、ユーザ定義のターゲット偽発見率(FDR)を制御する
元の予測器とランダムに生成されたダミー予測器の複数セットの組み合わせで実験を行った。
論文 参考訳(メタデータ) (2021-10-12T14:52:46Z) - Decoupling Shrinkage and Selection for the Bayesian Quantile Regression [0.0]
本稿では,ベイジアン量子回帰(BQR)に対する連続前処理における縮小と疎結合の概念を拡張した。
第1段階では、連続した先行状態の状態での量子的回帰を縮小し、第2段階では適応ラッソの効率的な変種によって後方を分散させる。
我々の手続きは、変数がマクロ経済に下方リスクをもたらす政策立案者とのコミュニケーションに利用できる。
論文 参考訳(メタデータ) (2021-07-18T17:22:33Z) - Uncertainty Inspired RGB-D Saliency Detection [70.50583438784571]
本稿では,データラベリングプロセスから学習することで,RGB-D値検出の不確実性を利用した最初のフレームワークを提案する。
そこで本研究では,確率的RGB-Dサリエンシ検出を実現するために,サリエンシデータラベリングプロセスにインスパイアされた生成アーキテクチャを提案する。
6つの挑戦的RGB-Dベンチマークデータセットの結果から,サリエンシマップの分布を学習する際のアプローチの優れた性能が示された。
論文 参考訳(メタデータ) (2020-09-07T13:01:45Z) - Non-Adaptive Adaptive Sampling on Turnstile Streams [57.619901304728366]
カラムサブセット選択、部分空間近似、射影クラスタリング、および空間サブリニアを$n$で使用するターンタイルストリームのボリュームに対する最初の相対エラーアルゴリズムを提供する。
我々の適応的なサンプリング手法は、様々なデータ要約問題に多くの応用をもたらしており、これは最先端を改善するか、より緩和された行列列モデルで以前に研究されただけである。
論文 参考訳(メタデータ) (2020-04-23T05:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。