論文の概要: Solving FDR-Controlled Sparse Regression Problems with Five Million Variables on a Laptop
- arxiv url: http://arxiv.org/abs/2409.19088v1
- Date: Fri, 27 Sep 2024 18:38:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 04:30:57.921659
- Title: Solving FDR-Controlled Sparse Regression Problems with Five Million Variables on a Laptop
- Title(参考訳): ラップトップ上の500万変数によるFDR制御スパース回帰問題の解法
- Authors: Fabian Scheidt, Jasin Machkour, Michael Muma,
- Abstract要約: T-Rexセレクタは、コンピュータ生成ダミー変数を用いた早期終了ランダム実験に基づく新しい学習フレームワークである。
本稿では,Random Access Memory (RAM) の使用を大幅に削減する,T-Rex の新たな実装である Big T-Rex を提案する。
我々は、Big T-Rexがラップトップ上で500万変数のFDR制御のLasso型問題を30分で効率よく解決できることを示した。
- 参考スコア(独自算出の注目度): 1.5948860527881505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, there is an urgent demand for scalable multivariate and high-dimensional false discovery rate (FDR)-controlling variable selection methods to ensure the repro-ducibility of discoveries. However, among existing methods, only the recently proposed Terminating-Random Experiments (T-Rex) selector scales to problems with millions of variables, as encountered in, e.g., genomics research. The T-Rex selector is a new learning framework based on early terminated random experiments with computer-generated dummy variables. In this work, we propose the Big T-Rex, a new implementation of T-Rex that drastically reduces its Random Access Memory (RAM) consumption to enable solving FDR-controlled sparse regression problems with millions of variables on a laptop. We incorporate advanced memory-mapping techniques to work with matrices that reside on solid-state drive and two new dummy generation strategies based on permutations of a reference matrix. Our nu-merical experiments demonstrate a drastic reduction in memory demand and computation time. We showcase that the Big T-Rex can efficiently solve FDR-controlled Lasso-type problems with five million variables on a laptop in thirty minutes. Our work empowers researchers without access to high-performance clusters to make reproducible discoveries in large-scale high-dimensional data.
- Abstract(参考訳): 現在,多変量および高次元偽発見率 (FDR) を制御し,発見の再現性を確保するための変数選択法が緊急に求められている。
しかし、既存の手法では、最近提案されたT-Random Experiments (T-Rex)セレクタのみが、数百万の変数を持つ問題にスケールする(例えばゲノミクス研究)。
T-Rexセレクタは、コンピュータ生成ダミー変数を用いた早期終了ランダム実験に基づく新しい学習フレームワークである。
本研究では,T-Rexの新たな実装であるBig T-Rexを提案し,そのRAM使用量を大幅に削減し,FDR制御されたスパースレグレッション問題をラップトップ上で数百万の変数で解決できるようにする。
本研究では, ソリッドステートドライブ上に存在する行列と, 参照行列の置換に基づく2つのダミー生成戦略に, 高度なメモリマッピング手法を取り入れた。
我々の数値実験は、メモリ需要と計算時間を大幅に削減することを示した。
我々は、Big T-Rexがラップトップ上で500万変数のFDR制御のLasso型問題を30分で効率よく解決できることを示した。
我々の研究は、大規模な高次元データにおいて再現可能な発見を行うために、高性能クラスタにアクセスせずに研究者に力を与える。
関連論文リスト
- The Informed Elastic Net for Fast Grouped Variable Selection and FDR Control in Genomics Research [9.6703621796624]
グループ化変数選択特性を維持しながら計算時間を著しく短縮する新しいベースセレクタを提案する。
提案したT-Rex+GVS(IEN)は、所望のグルーピング効果を示し、時間を短縮し、T-Rex+GVS(EN)と同じTPRを実現するが、FDRは低い。
論文 参考訳(メタデータ) (2024-10-07T17:18:25Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Deep Generative Symbolic Regression [83.04219479605801]
記号回帰は、データから簡潔な閉形式数学的方程式を発見することを目的としている。
既存の手法は、探索から強化学習まで、入力変数の数に応じてスケールできない。
本稿では,我々のフレームワークであるDeep Generative Symbolic Regressionのインスタンス化を提案する。
論文 参考訳(メタデータ) (2023-12-30T17:05:31Z) - Decreasing the Computing Time of Bayesian Optimization using
Generalizable Memory Pruning [56.334116591082896]
本稿では,任意のサロゲートモデルと取得関数で使用可能なメモリプルーニングとバウンダリ最適化のラッパーを示す。
BOを高次元または大規模データセット上で実行することは、この時間の複雑さのために難解になる。
すべてのモデル実装はMIT Supercloudの最先端コンピューティングハードウェア上で実行される。
論文 参考訳(メタデータ) (2023-09-08T14:05:56Z) - Scalable Neural Symbolic Regression using Control Variables [7.725394912527969]
本稿では,制御変数を利用したスケーラブルなシンボル回帰モデルであるScaleSRを提案し,精度とスケーラビリティを両立させる。
まず、ディープニューラルネットワーク(DNN)を用いて観測データからデータジェネレータを学習する。
実験結果から,複数の変数を持つ数学的表現の発見において,提案した ScaleSR は最先端のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-06-07T18:30:25Z) - A Conditional Randomization Test for Sparse Logistic Regression in
High-Dimension [36.00360315353985]
emphCRT-logitは、変数蒸留ステップとデコレーションステップを組み合わせたアルゴリズムである。
本手法の理論的解析を行い,大規模な脳画像とゲノムデータセットの実験とともにシミュレーションにおける有効性を示す。
論文 参考訳(メタデータ) (2022-05-29T09:37:16Z) - The Terminating-Random Experiments Selector: Fast High-Dimensional
Variable Selection with False Discovery Rate Control [10.86851797584794]
T-Rexセレクタは、ユーザ定義のターゲット偽発見率(FDR)を制御する
元の予測器とランダムに生成されたダミー予測器の複数セットの組み合わせで実験を行った。
論文 参考訳(メタデータ) (2021-10-12T14:52:46Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - A Hypergradient Approach to Robust Regression without Correspondence [85.49775273716503]
本稿では,入力データと出力データとの対応が不十分な回帰問題について考察する。
ほとんどの既存手法はサンプルサイズが小さい場合にのみ適用できる。
シャッフル回帰問題に対する新しい計算フレームワークであるROBOTを提案する。
論文 参考訳(メタデータ) (2020-11-30T21:47:38Z) - The flare Package for High Dimensional Linear Regression and Precision
Matrix Estimation in R [45.24529956312764]
本稿では,新しい高次元回帰手法のファミリーを実装したフレアというRパッケージについて述べる。
パッケージフレアは二重精度Cで符号化され、ユーザフレンドリーなインターフェースによってRから呼び出される。
実験により、フレアは効率的で、大きな問題にスケールアップできることが示された。
論文 参考訳(メタデータ) (2020-06-27T18:01:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。