論文の概要: A Conditional Randomization Test for Sparse Logistic Regression in
High-Dimension
- arxiv url: http://arxiv.org/abs/2205.14613v1
- Date: Sun, 29 May 2022 09:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 15:23:45.467750
- Title: A Conditional Randomization Test for Sparse Logistic Regression in
High-Dimension
- Title(参考訳): 高次元における分散ロジスティック回帰の条件付きランダム化試験
- Authors: Binh T. Nguyen, Bertrand Thirion, Sylvain Arlot
- Abstract要約: emphCRT-logitは、変数蒸留ステップとデコレーションステップを組み合わせたアルゴリズムである。
本手法の理論的解析を行い,大規模な脳画像とゲノムデータセットの実験とともにシミュレーションにおける有効性を示す。
- 参考スコア(独自算出の注目度): 36.00360315353985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying the relevant variables for a classification model with correct
confidence levels is a central but difficult task in high-dimension. Despite
the core role of sparse logistic regression in statistics and machine learning,
it still lacks a good solution for accurate inference in the regime where the
number of features $p$ is as large as or larger than the number of samples $n$.
Here, we tackle this problem by improving the Conditional Randomization Test
(CRT). The original CRT algorithm shows promise as a way to output p-values
while making few assumptions on the distribution of the test statistics. As it
comes with a prohibitive computational cost even in mildly high-dimensional
problems, faster solutions based on distillation have been proposed. Yet, they
rely on unrealistic hypotheses and result in low-power solutions. To improve
this, we propose \emph{CRT-logit}, an algorithm that combines a
variable-distillation step and a decorrelation step that takes into account the
geometry of $\ell_1$-penalized logistic regression problem. We provide a
theoretical analysis of this procedure, and demonstrate its effectiveness on
simulations, along with experiments on large-scale brain-imaging and genomics
datasets.
- Abstract(参考訳): 正しい信頼度を持つ分類モデルの関連する変数を特定することは、高次元において中心であるが難しいタスクである。
統計と機械学習におけるスパースロジスティック回帰(sparse logistic regression)の中核的な役割にもかかわらず、$p$の機能がサンプルの$n$のそれよりも大きいという状況下では、正確な推論のための優れたソリューションが依然として欠けている。
本稿では,条件付きランダム化テスト(CRT)の改善によってこの問題に対処する。
元のCRTアルゴリズムは、テスト統計の分布をほとんど仮定せず、p値を出力する方法としてPromiseを示す。
軽度高次元問題においても計算コストが禁じられているため,蒸留法に基づく高速解法が提案されている。
しかし、それらは非現実的な仮説に依拠し、低電力の解をもたらす。
これを改善するために,$\ell_1$-penalized logistic regression problem の幾何を考慮した変数蒸留ステップとデコリレーションステップを組み合わせたアルゴリズムである \emph{CRT-logit} を提案する。
本手法の理論的解析を行い,大規模な脳画像とゲノムデータセットの実験とともにシミュレーションにおける有効性を示す。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Globally Convergent Accelerated Algorithms for Multilinear Sparse
Logistic Regression with $\ell_0$-constraints [2.323238724742687]
多重線形ロジスティック回帰は多次元データ解析の強力なツールである。
本稿では,$ell_0$-MLSRを解くために,アクセラレーションされた近位置換最小値MLSRモデルを提案する。
また、APALM$+$が一階臨界点に大域収束し、クルディ・ロジャシエヴィチ性質を用いて収束を確立することも示している。
論文 参考訳(メタデータ) (2023-09-17T11:05:08Z) - Statistical-Computational Tradeoffs in Mixed Sparse Linear Regression [20.00109111254507]
この問題は、$frackSNR2$-to-$frack2SNR2$statistic-to-computational gapである。
また,この問題が困難な狭い状況以外では,関連する混合回帰検出問題を解くための簡単なしきい値決定アルゴリズムも分析する。
論文 参考訳(メタデータ) (2023-03-03T18:03:49Z) - Retire: Robust Expectile Regression in High Dimensions [3.9391041278203978]
ペナル化量子化法と期待回帰法は、高次元データの異方性検出に有用な手段を提供する。
我々は,頑健な期待回帰(退職)を提案し,研究する。
提案手法は半平滑なニュートン座標降下アルゴリズムにより効率よく解けることを示す。
論文 参考訳(メタデータ) (2022-12-11T18:03:12Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - Distributionally Robust Optimization with Markovian Data [8.126833795693699]
本研究では,不確実な問題パラメータの確率分布が不明なプログラムについて検討する。
本稿では,問題の目的関数と最適解を推定するために,データ駆動型分布法を提案する。
論文 参考訳(メタデータ) (2021-06-12T10:59:02Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。