論文の概要: A Consistent and Scalable Algorithm for Best Subset Selection in Single
Index Models
- arxiv url: http://arxiv.org/abs/2309.06230v1
- Date: Tue, 12 Sep 2023 13:48:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 12:52:12.421759
- Title: A Consistent and Scalable Algorithm for Best Subset Selection in Single
Index Models
- Title(参考訳): 単一指標モデルにおける最適サブセット選択のための一貫性とスケーラブルなアルゴリズム
- Authors: Borui Tang, Jin Zhu, Junxian Zhu, Xueqin Wang, Heping Zhang
- Abstract要約: 高次元モデルにおける最良の部分集合選択は、計算的に難解であることが知られている。
我々は,高次元SIMにおける最良部分選択のための,証明可能な最初の拡張性アルゴリズムを提案する。
アルゴリズムは部分集合選択の一貫性を保ち、高い確率でオラクル特性を持つ。
- 参考スコア(独自算出の注目度): 1.3236116985407258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analysis of high-dimensional data has led to increased interest in both
single index models (SIMs) and best subset selection. SIMs provide an
interpretable and flexible modeling framework for high-dimensional data, while
best subset selection aims to find a sparse model from a large set of
predictors. However, best subset selection in high-dimensional models is known
to be computationally intractable. Existing methods tend to relax the
selection, but do not yield the best subset solution. In this paper, we
directly tackle the intractability by proposing the first provably scalable
algorithm for best subset selection in high-dimensional SIMs. Our algorithmic
solution enjoys the subset selection consistency and has the oracle property
with a high probability. The algorithm comprises a generalized information
criterion to determine the support size of the regression coefficients,
eliminating the model selection tuning. Moreover, our method does not assume an
error distribution or a specific link function and hence is flexible to apply.
Extensive simulation results demonstrate that our method is not only
computationally efficient but also able to exactly recover the best subset in
various settings (e.g., linear regression, Poisson regression, heteroscedastic
models).
- Abstract(参考訳): 高次元データの解析は、シングルインデックスモデル(sims)とベストサブセット選択の両方への関心を高めた。
SIMは高次元データに対する解釈可能なフレキシブルなモデリングフレームワークを提供する一方、最適なサブセット選択は、大量の予測器からスパースモデルを見つけることを目的としている。
しかし、高次元モデルにおける最良の部分集合選択は計算的に難解であることが知られている。
既存のメソッドは選択を緩和する傾向があるが、最良のサブセットソリューションを与えない。
本稿では,高次元SIMにおける最良部分選択のための最初の証明可能な拡張性アルゴリズムを提案する。
私たちのアルゴリズムソリューションは、サブセット選択の一貫性を享受し、高い確率でoracleプロパティを持ちます。
このアルゴリズムは、回帰係数の支持サイズを決定するための一般化情報基準を含み、モデル選択チューニングを除去する。
さらに,本手法では,誤差分布や特定のリンク関数を仮定せず,適用が柔軟である。
広範なシミュレーション結果から,本手法は計算効率だけでなく,様々な設定(線形回帰,ポアソン回帰,ヘテロシドスティックモデルなど)において最適部分集合を正確に復元できることを示した。
関連論文リスト
- An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Best-Subset Selection in Generalized Linear Models: A Fast and
Consistent Algorithm via Splicing Technique [0.6338047104436422]
ベストサブセットセクションは、このタイプの問題の聖杯として広く見なされている。
軽度条件下での最適部分集合回復のためのアルゴリズムを提案し,提案した。
我々の実装は、一般的な変数選択ツールキットと比較して約4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2023-08-01T03:11:31Z) - A model-free feature selection technique of feature screening and random
forest based recursive feature elimination [0.0]
質量特徴を持つ超高次元データのモデルフリー特徴選択法を提案する。
提案手法は選択整合性を示し, 弱正則条件下では$L$整合性を示す。
論文 参考訳(メタデータ) (2023-02-15T03:39:16Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z) - Optimally Weighted Ensembles of Regression Models: Exact Weight
Optimization and Applications [0.0]
異なる回帰モデルを組み合わせることで、単一の(ベストな)回帰モデルを選択するよりも良い結果が得られることを示す。
不均一回帰モデルから最適重み付き線形結合を求める効率的な手法を概説する。
論文 参考訳(メタデータ) (2022-06-22T09:11:14Z) - Fast Feature Selection with Fairness Constraints [49.142308856826396]
モデル構築における最適特徴の選択に関する基礎的問題について検討する。
この問題は、greedyアルゴリズムの変種を使用しても、大規模なデータセットで計算的に困難である。
適応クエリモデルは,最近提案された非モジュラー関数に対する直交整合探索のより高速なパラダイムに拡張する。
提案アルゴリズムは、適応型クエリモデルにおいて指数関数的に高速な並列実行を実現する。
論文 参考訳(メタデータ) (2022-02-28T12:26:47Z) - Universal and data-adaptive algorithms for model selection in linear
contextual bandits [52.47796554359261]
モデル選択の最も単純な非自明な例を考える: 単純な多重武装バンディット問題と線形文脈バンディット問題とを区別する。
データ適応的な方法で探索する新しいアルゴリズムを導入し、$mathcalO(dalpha T1- alpha)$という形式の保証を提供する。
我々のアプローチは、いくつかの仮定の下で、ネストされた線形文脈包帯のモデル選択に拡張する。
論文 参考訳(メタデータ) (2021-11-08T18:05:35Z) - Subset selection for linear mixed models [0.0]
線形混合モデル(LMM)は、構造的依存を伴う回帰解析に有効である。
LMMを用いた部分集合選択のためのベイズ決定解析を導入する。
これらのツールは、シミュレーションデータと縦方向の身体活動データセットに適用される。
論文 参考訳(メタデータ) (2021-07-27T15:47:44Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Adaptive Graph-based Generalized Regression Model for Unsupervised
Feature Selection [11.214334712819396]
非相関的かつ識別的特徴の選択は、教師なしの機能選択の重要な問題である。
非相関制約と $ell_2,1$-norm 正規化によって課される新しい一般化回帰モデルを提案する。
それは同時に同じ近所に属するこれらのデータ ポイントの分散を減らすこと無相関および差別的な特徴を選ぶことができます。
論文 参考訳(メタデータ) (2020-12-27T09:07:26Z) - Non-Adaptive Adaptive Sampling on Turnstile Streams [57.619901304728366]
カラムサブセット選択、部分空間近似、射影クラスタリング、および空間サブリニアを$n$で使用するターンタイルストリームのボリュームに対する最初の相対エラーアルゴリズムを提供する。
我々の適応的なサンプリング手法は、様々なデータ要約問題に多くの応用をもたらしており、これは最先端を改善するか、より緩和された行列列モデルで以前に研究されただけである。
論文 参考訳(メタデータ) (2020-04-23T05:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。