論文の概要: Filter Methods for Feature Selection in Supervised Machine Learning
Applications -- Review and Benchmark
- arxiv url: http://arxiv.org/abs/2111.12140v1
- Date: Tue, 23 Nov 2021 20:20:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 15:02:02.822031
- Title: Filter Methods for Feature Selection in Supervised Machine Learning
Applications -- Review and Benchmark
- Title(参考訳): 機械学習アプリケーションにおける特徴選択のためのフィルタ手法 -- レビューとベンチマーク
- Authors: Konstantin Hopf, Sascha Reifenrath
- Abstract要約: 本稿では,特徴選択ベンチマークに関する文献を合成し,広く使用されているR環境における58の手法の性能評価を行う。
MLモデルでは難しい4つの典型的なデータセットシナリオについて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The amount of data for machine learning (ML) applications is constantly
growing. Not only the number of observations, especially the number of measured
variables (features) increases with ongoing digitization. Selecting the most
appropriate features for predictive modeling is an important lever for the
success of ML applications in business and research. Feature selection methods
(FSM) that are independent of a certain ML algorithm - so-called filter methods
- have been numerously suggested, but little guidance for researchers and
quantitative modelers exists to choose appropriate approaches for typical ML
problems. This review synthesizes the substantial literature on feature
selection benchmarking and evaluates the performance of 58 methods in the
widely used R environment. For concrete guidance, we consider four typical
dataset scenarios that are challenging for ML models (noisy, redundant,
imbalanced data and cases with more features than observations). Drawing on the
experience of earlier benchmarks, which have considered much fewer FSMs, we
compare the performance of the methods according to four criteria (predictive
performance, number of relevant features selected, stability of the feature
sets and runtime). We found methods relying on the random forest approach, the
double input symmetrical relevance filter (DISR) and the joint impurity filter
(JIM) were well-performing candidate methods for the given dataset scenarios.
- Abstract(参考訳): 機械学習(ML)アプリケーションのデータ量は、常に増加しています。
観測数だけでなく、特に測定された変数の数(特徴)もデジタル化が進むにつれて増加する。
予測モデリングの最も適切な機能を選択することは、ビジネスおよび研究におけるMLアプリケーションの成功にとって重要なレバーである。
特定のMLアルゴリズム(いわゆるフィルタ法)に依存しない特徴選択法(FSM)が多数提案されているが,一般的なML問題に対して適切なアプローチを選択するための研究者や定量的モデリング者に対するガイダンスはほとんどない。
本稿では,特徴選択ベンチマークに関する文献を概説し,広く使用されているR環境における58手法の性能評価を行う。
具体的なガイダンスとして、MLモデルでは難しい4つの典型的なデータセットシナリオ(ノイズ、冗長、不均衡なデータ、観察よりも多くの機能を持つケース)を検討する。
fsmをはるかに少なくした以前のベンチマークの経験から,4つの基準(予測性能,関連する機能の選択数,機能セットの安定性,ランタイム)により,メソッドのパフォーマンスを比較した。
提案手法は, ランダムフォレスト手法, ダブル入力対称性関連フィルタ (DISR) とジョイント不純物フィルタ (JIM) が, 与えられたデータセットのシナリオに対して高い性能の候補手法であることがわかった。
関連論文リスト
- LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Binary Feature Mask Optimization for Feature Selection [0.0]
本稿では,モデルの予測を考慮した特徴選択を行う新しいフレームワークを提案する。
我々のフレームワークは、選択過程における特徴を排除するために、新しい特徴マスキングアプローチを用いて革新する。
機械学習モデルとしてLightGBMとMulti-Layer Perceptronを用いた実生活データセットの性能改善を示す。
論文 参考訳(メタデータ) (2024-01-23T10:54:13Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - A model-free feature selection technique of feature screening and random
forest based recursive feature elimination [0.0]
質量特徴を持つ超高次元データのモデルフリー特徴選択法を提案する。
提案手法は選択整合性を示し, 弱正則条件下では$L$整合性を示す。
論文 参考訳(メタデータ) (2023-02-15T03:39:16Z) - Variational Factorization Machines for Preference Elicitation in
Large-Scale Recommender Systems [17.050774091903552]
本稿では, 標準のミニバッチ降下勾配を用いて容易に最適化できる因子化機械 (FM) の変分定式化を提案する。
提案アルゴリズムは,ユーザおよび項目パラメータに近似した後続分布を学習し,予測に対する信頼区間を導出する。
いくつかのデータセットを用いて、予測精度の点で既存の手法と同等または優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T00:06:28Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - RoMA: Robust Model Adaptation for Offline Model-based Optimization [115.02677045518692]
入力出力クエリの静的データセットからブラックボックス目的関数を最大化する入力を探索する問題を考える。
この問題を解決するための一般的なアプローチは、真の客観的関数を近似するプロキシモデルを維持することである。
ここでの大きな課題は、検索中に逆最適化された入力を避ける方法である。
論文 参考訳(メタデータ) (2021-10-27T05:37:12Z) - Efficient Data-specific Model Search for Collaborative Filtering [56.60519991956558]
協調フィルタリング(CF)はレコメンダシステムの基本的なアプローチである。
本稿では,機械学習(AutoML)の最近の進歩を動機として,データ固有のCFモデルを設計することを提案する。
ここでキーとなるのは、最先端(SOTA)のCFメソッドを統一し、それらを入力エンコーディング、埋め込み関数、インタラクション、予測関数の非結合ステージに分割する新しいフレームワークである。
論文 参考訳(メタデータ) (2021-06-14T14:30:32Z) - Robusta: Robust AutoML for Feature Selection via Reinforcement Learning [24.24652530951966]
強化学習(RL)に基づく初の堅牢なAutoMLフレームワークRobostaを提案します。
このフレームワークは,良性サンプルの競争精度を維持しつつ,モデルロバスト性を最大22%向上させることができることを示す。
論文 参考訳(メタデータ) (2021-01-15T03:12:29Z) - Feature Selection for Huge Data via Minipatch Learning [0.0]
安定ミニパッチ選択(STAMPS)と適応STAMPSを提案する。
STAMPSは、データの観測と特徴の両方の小さな(適応性の高い)ランダムなサブセットに基づいて訓練された基本特徴セレクタの選択イベントのアンサンブルを構築するメタアルゴリズムである。
われわれのアプローチは一般的であり、様々な機能選択戦略や機械学習技術に応用できる。
論文 参考訳(メタデータ) (2020-10-16T17:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。