論文の概要: Loss-guided Stability Selection
- arxiv url: http://arxiv.org/abs/2202.04956v1
- Date: Thu, 10 Feb 2022 11:20:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 15:51:18.003159
- Title: Loss-guided Stability Selection
- Title(参考訳): 損失誘導安定性選択
- Authors: Tino Werner
- Abstract要約: LassoやBoostingのようなモデル選択手順は、実際のデータに過度に適合する傾向があることはよく知られている。
標準安定選択は、グローバルな基準、すなわち家族ごとのエラー率に基づいている。
選択された損失関数を付加的な検証ステップで尊重する安定性選択変種を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In modern data analysis, sparse model selection becomes inevitable once the
number of predictors variables is very high. It is well-known that model
selection procedures like the Lasso or Boosting tend to overfit on real data.
The celebrated Stability Selection overcomes these weaknesses by aggregating
models, based on subsamples of the training data, followed by choosing a stable
predictor set which is usually much sparser than the predictor sets from the
raw models. The standard Stability Selection is based on a global criterion,
namely the per-family error rate, while additionally requiring expert knowledge
to suitably configure the hyperparameters. Since model selection depends on the
loss function, i.e., predictor sets selected w.r.t. some particular loss
function differ from those selected w.r.t. some other loss function, we propose
a Stability Selection variant which respects the chosen loss function via an
additional validation step based on out-of-sample validation data, optionally
enhanced with an exhaustive search strategy. Our Stability Selection variants
are widely applicable and user-friendly. Moreover, our Stability Selection
variants can avoid the issue of severe underfitting which affects the original
Stability Selection for noisy high-dimensional data, so our priority is not to
avoid false positives at all costs but to result in a sparse stable model with
which one can make predictions. Experiments where we consider both regression
and binary classification and where we use Boosting as model selection
algorithm reveal a significant precision improvement compared to raw Boosting
models while not suffering from any of the mentioned issues of the original
Stability Selection.
- Abstract(参考訳): 現代のデータ分析では、予測変数の数が非常に多いとスパースモデル選択は避けられなくなる。
LassoやBoostingのようなモデル選択手順は、実際のデータにオーバーフィットする傾向があることはよく知られている。
有望な安定選択は、トレーニングデータのサブサンプルに基づいてモデルを集約することでこれらの弱点を克服し、続いて、通常、原モデルの予測セットよりもはるかに小さい安定した予測セットを選択する。
標準的な安定性の選択は、グローバルな基準、すなわち家族ごとのエラー率に基づいており、同時にハイパーパラメータを適切に構成するために専門家の知識を必要とする。
モデル選択は損失関数に依存するため、例えば、選択した w.r.t と選択した w.r.t とが異なる特定の損失関数を推定する。
我々の安定選択型は広く適用可能で、ユーザフレンドリです。
さらに, ノイズの多い高次元データに対して, 元の安定度選択に影響を及ぼす重度不適合の問題を回避できるため, あらゆるコストで偽陽性を回避できるだけでなく, 予測できる疎度な安定モデルを実現することが最優先課題である。
回帰と二分分類の両方を考慮し、モデル選択アルゴリズムとしてBoostingを使用する実験は、元の安定選択のどの問題にも悩まされずに、生のBoostingモデルと比較して大幅に精度が向上したことを示す。
関連論文リスト
- Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Confidence-Based Model Selection: When to Take Shortcuts for
Subpopulation Shifts [119.22672589020394]
モデル信頼度がモデル選択を効果的に導くことができるConfidence-based Model Selection (CosMoS)を提案する。
我々はCosMoSを,データ分散シフトのレベルが異なる複数のテストセットを持つ4つのデータセットで評価した。
論文 参考訳(メタデータ) (2023-06-19T18:48:15Z) - Bilevel Optimization for Feature Selection in the Data-Driven Newsvendor
Problem [8.281391209717105]
本稿では、意思決定者が過去のデータにアクセス可能な機能ベースのニュースベンダー問題について検討する。
そこで本研究では,スパースモデル,説明可能なモデル,およびアウト・オブ・サンプル性能の改善を目的とした特徴選択について検討する。
本稿では,2レベルプログラムに対する混合整数線形プログラムの修正について述べる。
論文 参考訳(メタデータ) (2022-09-12T08:52:26Z) - Error-based Knockoffs Inference for Controlled Feature Selection [49.99321384855201]
本手法では, ノックオフ特徴量, エラーベース特徴重要度統計量, ステップダウン手順を一体化して, エラーベースのノックオフ推定手法を提案する。
提案手法では回帰モデルを指定する必要はなく,理論的保証で特徴選択を処理できる。
論文 参考訳(メタデータ) (2022-03-09T01:55:59Z) - Cluster Stability Selection [2.3986080077861787]
安定性の選択は、多くのサブサンプルで一貫して選択される機能のみを返すことで、機能選択メソッドをより安定させる。
クラスタ安定性の選択を導入し、データに高い相関クラスタが存在するという実践者の知識を活用する。
まとめると、クラスタ安定性の選択は両方の世界のベストを享受し、安定かつ良好な予測性能を持つスパース選択セットを得る。
論文 参考訳(メタデータ) (2022-01-03T06:28:17Z) - Employing an Adjusted Stability Measure for Multi-Criteria Model Fitting
on Data Sets with Similar Features [0.1127980896956825]
提案手法は,2つの確立したアプローチと比較して,同じあるいはより良い予測性能が得られることを示す。
このアプローチでは、関係のない機能や冗長な機能を避けながら、関連する機能を選択することに成功しています。
多くの類似した特徴を持つデータセットの場合、特徴選択安定性は調整された安定性尺度で評価されなければならない。
論文 参考訳(メタデータ) (2021-06-15T12:48:07Z) - Feature Selection Using Reinforcement Learning [0.0]
特定の関心の予測因子を特徴付けるために使用できる変数や特徴の空間は指数関数的に増大し続けている。
モデルのバイアスを損なうことなく分散を最小化する最も特徴的な特徴を特定することは、マシンラーニングモデルのトレーニングを成功させる上で非常に重要です。
論文 参考訳(メタデータ) (2021-01-23T09:24:37Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Leveraging Model Inherent Variable Importance for Stable Online Feature
Selection [16.396739487911056]
本稿では,オンライン機能選択のための新しいフレームワークFIRESを紹介する。
私たちのフレームワークは、基盤となるモデルの選択をユーザに委ねるという点で一般的です。
実験の結果,提案フレームワークは特徴選択安定性の点で明らかに優れていることがわかった。
論文 参考訳(メタデータ) (2020-06-18T10:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。