論文の概要: RENT -- Repeated Elastic Net Technique for Feature Selection
- arxiv url: http://arxiv.org/abs/2009.12780v3
- Date: Mon, 22 Nov 2021 14:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 03:26:49.172919
- Title: RENT -- Repeated Elastic Net Technique for Feature Selection
- Title(参考訳): RENT -- 特徴選択のための繰り返し弾性ネット技術
- Authors: Anna Jenul, Stefan Schrunner, Kristian Hovde Liland, Ulf Geir Indahl,
Cecilia Marie Futsaether, Oliver Tomic
- Abstract要約: 特徴選択のための繰り返し弾性ネット技術(RENT)を提案する。
RENTは、弾力性のあるネット正規化を備えた一般化線形モデルのアンサンブルを使用しており、それぞれがトレーニングデータの異なるサブセットに基づいて訓練されている。
RENTは、トレーニング中に予測が難しいデータ内のオブジェクトの識別に関するモデル解釈のための貴重な情報を提供する。
- 参考スコア(独自算出の注目度): 0.46180371154032895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature selection is an essential step in data science pipelines to reduce
the complexity associated with large datasets. While much research on this
topic focuses on optimizing predictive performance, few studies investigate
stability in the context of the feature selection process. In this study, we
present the Repeated Elastic Net Technique (RENT) for Feature Selection. RENT
uses an ensemble of generalized linear models with elastic net regularization,
each trained on distinct subsets of the training data. The feature selection is
based on three criteria evaluating the weight distributions of features across
all elementary models. This fact leads to the selection of features with high
stability that improve the robustness of the final model. Furthermore, unlike
established feature selectors, RENT provides valuable information for model
interpretation concerning the identification of objects in the data that are
difficult to predict during training. In our experiments, we benchmark RENT
against six established feature selectors on eight multivariate datasets for
binary classification and regression. In the experimental comparison, RENT
shows a well-balanced trade-off between predictive performance and stability.
Finally, we underline the additional interpretational value of RENT with an
exploratory post-hoc analysis of a healthcare dataset.
- Abstract(参考訳): 機能選択は、大規模なデータセットに関連する複雑さを減らすために、データサイエンスパイプラインにおいて不可欠なステップです。
このトピックに関する多くの研究は予測性能の最適化に焦点を当てているが、特徴選択プロセスの文脈における安定性の研究はほとんどない。
本研究では,特徴選択のための繰り返し弾性ネット技術(RENT)を提案する。
RENTは、トレーニングデータの異なるサブセットに基づいてトレーニングされた、弾力性のあるネット正規化を備えた一般化線形モデルのアンサンブルを使用する。
特徴選択は,基本モデル全体の特徴量分布を評価する3つの基準に基づく。
この事実は、最終モデルの堅牢性を改善する高い安定性を持つ特徴の選択につながる。
さらに、確立された特徴セレクタとは異なり、RENTはトレーニング中に予測が難しいデータ中のオブジェクトの識別に関するモデル解釈に有用な情報を提供する。
実験では,2値分類と回帰のための8つの多変量データセットに対して,RENTを6つの確立された特徴セレクタと比較した。
実験的な比較では、RENTは予測性能と安定性のバランスのとれたトレードオフを示す。
最後に、医療データセットの探索的ポストホック分析により、RENTの解釈値を追加する。
関連論文リスト
- IGANN Sparse: Bridging Sparsity and Interpretability with Non-linear Insight [4.010646933005848]
IGANN Sparseは、一般化された加法モデルのファミリーから生まれた、新しい機械学習モデルである。
トレーニング中の非線形特徴選択プロセスを通じて、スパシティを促進する。
これにより、予測性能を犠牲にすることなく、モデル空間の改善による解釈可能性を保証する。
論文 参考訳(メタデータ) (2024-03-17T22:44:36Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - On the Trade-off of Intra-/Inter-class Diversity for Supervised
Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。
トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文 参考訳(メタデータ) (2023-05-20T16:23:50Z) - Parallel feature selection based on the trace ratio criterion [4.30274561163157]
本研究は,PFSTを用いた並列特徴選択という,新しい並列特徴選択手法を提案する。
提案手法は,Fisher's Discriminant Analysisで用いられるクラス分離性の尺度であるトレース基準を用いて特徴的有用性を評価する。
実験により,本手法は,比較対象の他の手法による時間的差のごく一部で,少数の特徴セットを生成できることが確認された。
論文 参考訳(メタデータ) (2022-03-03T10:50:33Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Dynamic Instance-Wise Classification in Correlated Feature Spaces [15.351282873821935]
典型的な機械学習環境では、すべてのテストインスタンスの予測は、モデルトレーニング中に発見された機能の共通サブセットに基づいている。
それぞれのテストインスタンスに対して個別に評価する最適な特徴を順次選択し、分類精度に関して更なる改善が得られないことを判断すると、選択プロセスが終了して予測を行う新しい手法を提案する。
提案手法の有効性, 一般化性, 拡張性について, 多様なアプリケーション領域の様々な実世界のデータセットで説明する。
論文 参考訳(メタデータ) (2021-06-08T20:20:36Z) - Feature Selection Using Reinforcement Learning [0.0]
特定の関心の予測因子を特徴付けるために使用できる変数や特徴の空間は指数関数的に増大し続けている。
モデルのバイアスを損なうことなく分散を最小化する最も特徴的な特徴を特定することは、マシンラーニングモデルのトレーニングを成功させる上で非常に重要です。
論文 参考訳(メタデータ) (2021-01-23T09:24:37Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。