論文の概要: Robust Ultra-High-Dimensional Variable Selection With Correlated Structure Using Group Testing
- arxiv url: http://arxiv.org/abs/2602.07258v1
- Date: Fri, 06 Feb 2026 23:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.530049
- Title: Robust Ultra-High-Dimensional Variable Selection With Correlated Structure Using Group Testing
- Title(参考訳): 群検定による相関構造をもつロバストな超高次元可変選択
- Authors: Wanru Guo, Juan Xie, Binbin Wang, Weicong Chen, Xiaoyi Lu, Vipin Chaudhary, Curtis Tatsuoka,
- Abstract要約: 高次元ゲノムデータは、従来の特徴選択法に挑戦する強力なグループ相関構造を示す。
階層的クラスタリングによりデータ駆動変数群を生成する多段階的な手法であるDorfmanスクリーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.702722979447597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: High-dimensional genomic data exhibit strong group correlation structures that challenge conventional feature selection methods, which often assume feature independence or rely on pre-defined pathways and are sensitive to outliers and model misspecification. Methods: We propose the Dorfman screening framework, a multi-stage procedure that forms data-driven variable groups via hierarchical clustering, performs group and within-group hypothesis testing, and refines selection using elastic net or adaptive elastic net. Robust variants incorporate OGK-based covariance estimation, rank-based correlation, and Huber-weighted regression to handle contaminated and non-normal data. Results: In simulations, Dorfman-Sparse-Adaptive-EN performed best under normal conditions, while Robust-OGK-Dorfman-Adaptive-EN showed clear advantages under data contamination, outperforming classical Dorfman and competing methods. Applied to NSCLC gene expression data for trametinib response, robust Dorfman methods achieved the lowest prediction errors and enriched recovery of clinically relevant genes. Conclusions: The Dorfman framework provides an efficient and robust approach to genomic feature selection. Robust-OGK-Dorfman-Adaptive-EN offers strong performance under both ideal and contaminated conditions and scales to ultra-high-dimensional settings, making it well suited for modern genomic biomarker discovery.
- Abstract(参考訳): 背景: 高次元ゲノムデータは、通常の特徴選択法に挑戦する強力なグループ相関構造を示す。
方法: Dorfman スクリーニングフレームワークを提案する。階層的クラスタリングによりデータ駆動型変数群を生成し,グループおよびグループ内仮説テストを行い,弾性ネットや適応弾性ネットを用いて選択を洗練する多段階的手法である。
ロバスト変種は、汚染データや非正規データを扱うために、OGKに基づく共分散推定、ランクベースの相関、ハマー重回帰を含む。
結果: シミュレーションではDorfman-Sparse-Adaptive-ENが, Robust-OGK-Dorfman-Adaptive-ENは従来のDorfmanと競合する手法よりも優れていた。
トラエチニブ応答に対するNSCLC遺伝子の発現データに適用すると、ロバストなDorfman法は、最も低い予測誤差を達成し、臨床的に関係のある遺伝子のリッチな回復を実現した。
結論: Dorfmanフレームワークは、ゲノム的特徴の選択に対する効率的で堅牢なアプローチを提供する。
Robust-OGK-Dorfman-Adaptive-ENは、理想的な条件と汚染された条件の両方の下で強力な性能を提供し、超高次元設定にスケールし、現代のゲノムバイオマーカー発見に適している。
関連論文リスト
- Reliable data clustering with Bayesian community detection [0.0]
研究者たちはモジュール構造を明らかにするために、クラスタリングの類似性データに依存している。
しかし、階層クラスタリング、k平均、WGCNAといった広く使われているクラスタリング手法では、基本モデル選択が欠如しており、ノイズの影響を受けやすい。
一般的な回避策は相関行列表現をスパースしてクラスタリング前にノイズを除去するが、この余分なステップは任意のしきい値を導入し、構造を歪め、信頼できない結果をもたらす。
論文 参考訳(メタデータ) (2025-10-16T14:10:24Z) - Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes [55.2480439325792]
強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-08-15T20:50:53Z) - A Misclassification Network-Based Method for Comparative Genomic Analysis [3.7671415694914927]
メタデータに基づくゲノム配列の分類は、数十年間、比較ゲノム学において活発な研究領域であった。
本研究では、AIとネットワークサイエンスのアプローチを統合し、比較ゲノム分析フレームワークを開発する。
論文 参考訳(メタデータ) (2024-12-09T23:22:15Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Nonlinear Permuted Granger Causality [0.6526824510982799]
グランガー因果推論(Granger causal inference)は、経済学から神経科学まで幅広い分野において用いられる、論争的だが広範な手法である。
サンプル外比較を可能にするために、共変集合の置換を用いて関数接続の尺度を明示的に定義する。
変分法の性能を, シミュレーションによる変分選択, ナイーブ置換, 省略技術と比較した。
論文 参考訳(メタデータ) (2023-08-11T16:44:16Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - CASTLE: Regularization via Auxiliary Causal Graph Discovery [89.74800176981842]
因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。
CASTLEは因果的隣り合いを持つ因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。
論文 参考訳(メタデータ) (2020-09-28T09:49:38Z) - Robust Grouped Variable Selection Using Distributionally Robust
Optimization [11.383869751239166]
摂動下での群付き変数選択のための不確実性セットを用いた分布ロバスト最適化(DRO)の定式化を提案する。
我々は,サンプル外損失と推定バイアスの確率的境界を証明し,推定器の群化効果を確立する。
我々の定式化は,群レベルでの空間性を促進する解釈可能で同相なモデルを生成することを示す。
論文 参考訳(メタデータ) (2020-06-10T22:32:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。