論文の概要: Solar: $L_0$ solution path averaging for fast and accurate variable
selection in high-dimensional data
- arxiv url: http://arxiv.org/abs/2007.15707v3
- Date: Fri, 6 May 2022 02:08:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 13:31:33.826562
- Title: Solar: $L_0$ solution path averaging for fast and accurate variable
selection in high-dimensional data
- Title(参考訳): solar: 高次元データの高速かつ正確な変数選択のための平均値$l_0$ソリューションパス
- Authors: Ning Xu, Timothy C.G. Fisher
- Abstract要約: 我々は,新しい変数選択アルゴリズム,サブサンプル順序付き最小角回帰(ソラー)を提案する。
太陽の収量は、ラッソ負荷の3分の1以下であり、変動選択の空間性と精度の観点から、ラッソよりも大幅に改善されていることを示す。
- 参考スコア(独自算出の注目度): 8.077207211102458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new variable selection algorithm, subsample-ordered least-angle
regression (solar), and its coordinate descent generalization, solar-cd. Solar
re-constructs lasso paths using the $L_0$ norm and averages the resulting
solution paths across subsamples. Path averaging retains the ranking
information of the informative variables while averaging out sensitivity to
high dimensionality, improving variable selection stability, efficiency, and
accuracy. We prove that: (i) with a high probability, path averaging perfectly
separates informative variables from redundant variables on the average $L_0$
path; (ii) solar variable selection is consistent and accurate; and (iii) the
probability that solar omits weak signals is controllable for finite sample
size. We also demonstrate that: (i) solar yields, with less than $1/3$ of the
lasso computation load, substantial improvements over lasso in terms of the
sparsity (64-84\% reduction in redundant variable selection) and accuracy of
variable selection; (ii) compared with the lasso safe/strong rule and variable
screening, solar largely avoids selection of redundant variables and rejection
of informative variables in the presence of complicated dependence structures;
(iii) the sparsity and stability of solar conserves residual degrees of freedom
for data-splitting hypothesis testing, improving the accuracy of post-selection
inference on weak signals with limited $n$; (iv) replacing lasso with solar in
bootstrap selection (e.g., bolasso or stability selection) produces a
multi-layer variable ranking scheme that improves selection sparsity and
ranking accuracy with the computation load of only one lasso realization; and
(v) given the computation resources, solar bootstrap selection is substantially
faster (98\% lower computation time) than the theoretical maximum speedup for
parallelized bootstrap lasso (confirmed by Amdahl's law).
- Abstract(参考訳): 我々は,新しい変分選択アルゴリズム,サブサンプル順序付き最小角度回帰(ソラー),および座標降下一般化,太陽-cdを提案する。
ソーラーは、$L_0$ノルムを使ってラッソパスを再構成し、サブサンプルをまたいだソリューションパスを平均化する。
経路平均化は、情報変数のランキング情報を保持しながら、高次元に対する感度を平均化し、変数選択安定性、効率、精度を向上させる。
私たちはそれを証明します
(i)確率が高いパス平均化は、平均$L_0$パス上の冗長変数から情報変数を完全に分離する。
(二)太陽変分選択は一貫して正確であり、
(iii) 太陽光が弱い信号を省略する確率は有限サンプルサイズで制御可能である。
また、次のように示す。
(i)太陽収量は、ラッソ計算負荷の3分の3以下であり、余剰変数選択の64~84倍の減少)及び変数選択の正確性の観点から、ラッソよりも大幅に改善されている。
(ii)ラッソセーフ/ストロング・ルールと可変スクリーニングと比較して、太陽は複雑な依存構造の存在下で冗長変数の選択や情報変数の拒絶を大いに避ける。
(iii)太陽のスパース性と安定性は、データスプリッティング仮説試験における余剰自由度を保存し、n$制限された弱信号のポストセレクション推論の精度を向上させる。
(4)ラッソをブートストラップ選択(例えば、ボラッソや安定性の選択)で太陽に置き換えることにより、一つのラッソ実現のみの計算負荷で選択間隔とランキング精度を向上させる多層可変ランキングスキームが生成される。
(v) 計算資源を考えると、並列化ブートストラップラッソ(アムダールの法則により確認された)の理論的最大速度よりもソーラーブートストラップの選択は大幅に高速(98\%低い計算時間)である。
関連論文リスト
- Winning Prize Comes from Losing Tickets: Improve Invariant Learning by
Exploring Variant Parameters for Out-of-Distribution Generalization [76.27711056914168]
Out-of-Distribution (OOD) 一般化は、分散固有の特徴に適合することなく、様々な環境によく適応する堅牢なモデルを学ぶことを目的としている。
LTH(Lottery Ticket hypothesis)に基づく最近の研究は、学習目標を最小化し、タスクに重要なパラメータのいくつかを見つけることでこの問題に対処している。
Invariant Learning (EVIL) における変数探索手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T06:10:57Z) - The Adaptive $τ$-Lasso: Robustness and Oracle Properties [12.06248959194646]
本稿では,高次元データセット解析のためのロバストな$tau$-regression推定器の正規化版を紹介する。
得られた推定器はアダプティブ $tau$-Lasso と呼ばれ、外れ値や高平均点に対して堅牢である。
外れ値と高平均点に直面して、適応 $tau$-Lasso と $tau$-Lasso 推定器は、最高のパフォーマンスまたは最も近いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-18T21:34:14Z) - Adaptive Sketches for Robust Regression with Importance Sampling [64.75899469557272]
我々は、勾配降下(SGD)による頑健な回帰を解くためのデータ構造を導入する。
我々のアルゴリズムは、サブ線形空間を使用し、データに1回パスするだけで、SGDの$T$ステップを重要サンプリングで効果的に実行します。
論文 参考訳(メタデータ) (2022-07-16T03:09:30Z) - Meta Learning Low Rank Covariance Factors for Energy-Based Deterministic
Uncertainty [58.144520501201995]
ニューラルネットワーク層のBi-Lipschitz正規化は、各レイヤの特徴空間におけるデータインスタンス間の相対距離を保存する。
注意セットエンコーダを用いて,タスク固有の共分散行列を効率的に構築するために,対角的,対角的,低ランクな要素のメタ学習を提案する。
また,最終的な予測分布を達成するために,スケールしたエネルギーを利用する推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T22:04:19Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Sparse online variational Bayesian regression [0.0]
完全ベイズアプローチに代わる安価でスケーラブルな代替手段としてのバリエーションベイズ推論。
線形モデルの場合、この方法は決定論的最小二乗問題の反復解のみを必要とする。
大きな p の場合、近似は計算とメモリの両方において o(p) のコストの有望な結果が得られる。
論文 参考訳(メタデータ) (2021-02-24T12:49:42Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Nonlinear Distribution Regression for Remote Sensing Applications [6.664736150040092]
多くのリモートセンシングアプリケーションでは、観察から関心のある変数やパラメータを推定したい。
ニューラルネットワーク、ランダムフォレスト、ガウス過程などの標準アルゴリズムは、これら2つに関連して容易に利用可能である。
本稿では, グループ化されたデータの統計を仮定することなく, 従来の問題を解く非線形(カーネルベース)な分散回帰法を提案する。
論文 参考訳(メタデータ) (2020-12-07T22:04:43Z) - Accuracy and stability of solar variable selection comparison under
complicated dependence structures [6.837167110907022]
サブサンプル順序付き最小角度回帰(Solar)の経験的可変選択特性に着目した。
以前の研究では、太陽は最小角度の回帰を伴ういくつかの既知の高次元問題をほとんど緩和していることが示されている。
論文 参考訳(メタデータ) (2020-07-30T17:29:00Z) - Finite-time Identification of Stable Linear Systems: Optimality of the
Least-Squares Estimator [79.3239137440876]
線形時間不変系に対する正規最小方形推定器(OLS)の推定誤差の新しい有限時間解析法を提案する。
我々は、OLS推定器が$(varepsilon,delta)$-PACとなるのに十分な観測サンプルの数を特徴付け、少なくとも1-delta$の確率で$varepsilon$未満の推定誤差を生じる。
論文 参考訳(メタデータ) (2020-03-17T20:59:17Z) - High-dimensional, multiscale online changepoint detection [7.502070498889449]
ガウス的データストリームが平均的に変更されるような設定において,高次元のオンライン変更点検出のための新しい手法を提案する。
このアルゴリズムは、新しい観測におけるストレージ要件と最悪の計算複雑性の両方が、以前の観測数とは無関係であるという意味で、オンラインである。
Rパッケージ 'ocd' に実装した提案手法の有効性をシミュレーションにより検証し,その有効性を地震学データセット上で実証する。
論文 参考訳(メタデータ) (2020-03-07T21:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。