論文の概要: Elastic Net based Feature Ranking and Selection
- arxiv url: http://arxiv.org/abs/2012.14982v1
- Date: Wed, 30 Dec 2020 00:08:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 05:55:26.685378
- Title: Elastic Net based Feature Ranking and Selection
- Title(参考訳): 弾性ネットによる特徴ランク付けと選択
- Authors: Shaode Yu, Haobo Chen, Hang Yu, Zhicheng Zhang, Xiaokun Liang, Wenjian
Qin, Yaoqin Xie, Ping Shi
- Abstract要約: 直感的なアイデアは、データ分割と弾性ネットベースの機能選択の複数回の終わりに置かれます。
選択された特徴の頻度に関係し、特徴の重要性を示す指標として周波数を使用する。
elastic netとの競争力や優れたパフォーマンスを実現し、より少ない機能の一貫した選択を実現します。
- 参考スコア(独自算出の注目度): 9.289190508925875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature selection is important in data representation and intelligent
diagnosis. Elastic net is one of the most widely used feature selectors.
However, the features selected are dependant on the training data, and their
weights dedicated for regularized regression are irrelevant to their importance
if used for feature ranking, that degrades the model interpretability and
extension. In this study, an intuitive idea is put at the end of multiple times
of data splitting and elastic net based feature selection. It concerns the
frequency of selected features and uses the frequency as an indicator of
feature importance. After features are sorted according to their frequency,
linear support vector machine performs the classification in an incremental
manner. At last, a compact subset of discriminative features is selected by
comparing the prediction performance. Experimental results on breast cancer
data sets (BCDR-F03, WDBC, GSE 10810, and GSE 15852) suggest that the proposed
framework achieves competitive or superior performance to elastic net and with
consistent selection of fewer features. How to further enhance its consistency
on high-dimension small-sample-size data sets should be paid more attention in
our future work. The proposed framework is accessible online
(https://github.com/NicoYuCN/elasticnetFR).
- Abstract(参考訳): 特徴選択はデータ表現とインテリジェントな診断において重要である。
Elastic netは最も広く使われている機能セレクタの1つである。
しかしながら、選択された特徴はトレーニングデータに依存しており、正規化回帰専用の重み付けは、特徴ランキングに使用される場合の重要性に関係せず、モデル解釈可能性と拡張性が低下する。
本研究では,データ分割と弾性ネットによる特徴選択を複数回行った結果,直感的なアイデアが得られた。
選択された特徴の頻度に関係し、特徴の重要性を示す指標として周波数を使用する。
特徴量を周波数順にソートした後、線形支持ベクトルマシンは漸進的に分類を行う。
最終的に、予測性能を比較して識別特徴のコンパクトなサブセットを選択する。
乳がんデータセット (BCDR-F03, WDBC, GSE 10810, GSE 15852) の実験結果から, 提案フレームワークは弾力性ネットに対する競争力や優れた性能を達成し, より少ない特徴を連続的に選択できることが示唆された。
高次元の小型データセットの一貫性をさらに強化するには、今後の作業にもっと注意を払う必要がある。
提案されたフレームワークはオンラインでアクセスできる(https://github.com/nicoyucn/elasticnetfr)。
関連論文リスト
- LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Online Sparse Streaming Feature Selection Using Adapted Classification [5.587715545506331]
既存の方法は、データを欠くことなく、特徴を関連性または無関係に分割する。
適応型分類(OS2FS-AC)に基づくオンラインスパースストリーミングの特徴選択を提案する。
10個の実世界のデータセットの実験結果から、OS2FS-ACは最先端のアルゴリズムよりも性能が良いことが示された。
論文 参考訳(メタデータ) (2023-02-25T03:03:53Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - Parallel feature selection based on the trace ratio criterion [4.30274561163157]
本研究は,PFSTを用いた並列特徴選択という,新しい並列特徴選択手法を提案する。
提案手法は,Fisher's Discriminant Analysisで用いられるクラス分離性の尺度であるトレース基準を用いて特徴的有用性を評価する。
実験により,本手法は,比較対象の他の手法による時間的差のごく一部で,少数の特徴セットを生成できることが確認された。
論文 参考訳(メタデータ) (2022-03-03T10:50:33Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Dynamic Instance-Wise Classification in Correlated Feature Spaces [15.351282873821935]
典型的な機械学習環境では、すべてのテストインスタンスの予測は、モデルトレーニング中に発見された機能の共通サブセットに基づいている。
それぞれのテストインスタンスに対して個別に評価する最適な特徴を順次選択し、分類精度に関して更なる改善が得られないことを判断すると、選択プロセスが終了して予測を行う新しい手法を提案する。
提案手法の有効性, 一般化性, 拡張性について, 多様なアプリケーション領域の様々な実世界のデータセットで説明する。
論文 参考訳(メタデータ) (2021-06-08T20:20:36Z) - A User-Guided Bayesian Framework for Ensemble Feature Selection in Life
Science Applications (UBayFS) [0.0]
本稿では,ベイズ統計フレームワークに組み込んだアンサンブル特徴選択手法UBayFSを提案する。
提案手法は,データとドメイン知識の2つの情報源を考慮し,特徴選択のプロセスを強化する。
標準的な機能セレクタとの比較では、UBayFSは競争力のあるパフォーマンスを実現し、ドメイン知識を組み込むための柔軟性を提供する。
論文 参考訳(メタデータ) (2021-04-30T06:51:33Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - RENT -- Repeated Elastic Net Technique for Feature Selection [0.46180371154032895]
特徴選択のための繰り返し弾性ネット技術(RENT)を提案する。
RENTは、弾力性のあるネット正規化を備えた一般化線形モデルのアンサンブルを使用しており、それぞれがトレーニングデータの異なるサブセットに基づいて訓練されている。
RENTは、トレーニング中に予測が難しいデータ内のオブジェクトの識別に関するモデル解釈のための貴重な情報を提供する。
論文 参考訳(メタデータ) (2020-09-27T07:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。