論文の概要: Binary Feature Mask Optimization for Feature Selection
- arxiv url: http://arxiv.org/abs/2401.12644v1
- Date: Tue, 23 Jan 2024 10:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 16:08:04.090521
- Title: Binary Feature Mask Optimization for Feature Selection
- Title(参考訳): 特徴選択のためのバイナリ特徴マスク最適化
- Authors: Mehmet E. Lorasdagi, Mehmet Y. Turali, Ali T. Koc, Suleyman S. Kozat
- Abstract要約: 本稿では,モデルの予測を考慮した特徴選択を行う新しいフレームワークを提案する。
我々のフレームワークは、選択過程における特徴を排除するために、新しい特徴マスキングアプローチを用いて革新する。
機械学習モデルとしてLightGBMとMulti-Layer Perceptronを用いた実生活データセットの性能改善を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We investigate feature selection problem for generic machine learning (ML)
models. We introduce a novel framework that selects features considering the
predictions of the model. Our framework innovates by using a novel feature
masking approach to eliminate the features during the selection process,
instead of completely removing them from the dataset. This allows us to use the
same ML model during feature selection, unlike other feature selection methods
where we need to train the ML model again as the dataset has different
dimensions on each iteration. We obtain the mask operator using the predictions
of the ML model, which offers a comprehensive view on the subsets of the
features essential for the predictive performance of the model. A variety of
approaches exist in the feature selection literature. However, no study has
introduced a training-free framework for a generic ML model to select features
while considering the importance of the feature subsets as a whole, instead of
focusing on the individual features. We demonstrate significant performance
improvements on the real-life datasets under different settings using LightGBM
and Multi-Layer Perceptron as our ML models. Additionally, we openly share the
implementation code for our methods to encourage the research and the
contributions in this area.
- Abstract(参考訳): 汎用機械学習(ML)モデルの特徴選択問題について検討する。
モデルの予測を考慮した特徴を選択する新しいフレームワークを提案する。
我々のフレームワークは、データセットから完全に削除するのではなく、新しい機能マスキングアプローチを使用して、選択プロセス中の機能を排除します。
これは、データセットが各イテレーションで異なる次元を持つため、MLモデルを再びトレーニングする必要がある他の機能選択方法とは異なり、機能選択中に同じMLモデルを使用することができます。
本研究では,MLモデルの予測値を用いてマスク演算子を取得し,モデルの予測性能に不可欠な特徴のサブセットを包括的に把握する。
特徴選択文学には様々なアプローチが存在する。
しかし、機能サブセット全体の重要性を考慮しつつ、個々の機能に焦点を絞るのではなく、機能を選択する汎用MLモデルのためのトレーニングフリーフレームワークを導入する研究はない。
MLモデルとしてLightGBMとMulti-Layer Perceptronを用いて,異なる設定下でのリアルタイムデータセットの性能向上を示す。
さらに,提案手法の実装コードをオープンに共有し,この分野の研究と貢献を促進する。
関連論文リスト
- LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - REFRESH: Responsible and Efficient Feature Reselection Guided by SHAP Values [17.489279048199304]
REFRESHは、いくつかの新しいモデルをトレーニングすることなく、モデルパフォーマンスに望ましい追加の制約を達成できるように、機能を再選択する手法である。
REFRESHの基盤となるアルゴリズムは、SHAP値と相関解析を用いて、モデルをトレーニングすることなくモデルの予測を近似できる新しい手法である。
論文 参考訳(メタデータ) (2024-03-13T18:06:43Z) - Embedded feature selection in LSTM networks with multi-objective
evolutionary ensemble learning for time series forecasting [49.1574468325115]
本稿では,Long Short-Term Memory Networkに埋め込まれた特徴選択手法を提案する。
本手法はLSTMの重みと偏りを分割的に最適化する。
イタリアとスペイン南東部の大気質時系列データの実験的評価により,従来のLSTMの能力一般化が著しく向上することが確認された。
論文 参考訳(メタデータ) (2023-12-29T08:42:10Z) - Extending Variability-Aware Model Selection with Bias Detection in
Machine Learning Projects [0.7646713951724013]
本稿では,機械学習プロジェクトにおけるバイアス検出による適応変数認識モデル選択手法の拡張について述べる。
提案手法は, モデル選択, 特にバイアスに関連する要因, およびそれらの相互作用に影響を及ぼす因子を明示することによって, 技術の現状を推し進めることを目的としている。
論文 参考訳(メタデータ) (2023-11-23T22:08:29Z) - A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - Predicting is not Understanding: Recognizing and Addressing
Underspecification in Machine Learning [47.651130958272155]
下位仕様とは、ドメイン内の精度で区別できない複数のモデルの存在を指す。
我々は、不特定概念を形式化し、それを特定し、部分的に対処する方法を提案する。
論文 参考訳(メタデータ) (2022-07-06T11:20:40Z) - Feature Selection using e-values [4.3512163406552]
教師付きパラメトリックモデルの文脈でe値の概念を導入する。
一般的な条件下では、e-値の階数順序は、すべての本質的特徴を含むモデルと、そうでないものとを分離する。
データ深度と高速再サンプリングに基づくアルゴリズムを用いて,e値を用いた特徴選択手法を実装した。
論文 参考訳(メタデータ) (2022-06-11T01:34:29Z) - Filter Methods for Feature Selection in Supervised Machine Learning
Applications -- Review and Benchmark [0.0]
本稿では,特徴選択ベンチマークに関する文献を合成し,広く使用されているR環境における58の手法の性能評価を行う。
MLモデルでは難しい4つの典型的なデータセットシナリオについて検討する。
論文 参考訳(メタデータ) (2021-11-23T20:20:24Z) - Compositional Fine-Grained Low-Shot Learning [58.53111180904687]
そこで本研究では,ゼロおよび少数ショット学習のための新しい合成生成モデルを構築し,学習サンプルの少ない,あるいは全くない,きめ細かいクラスを認識する。
本稿では, 学習サンプルから属性特徴を抽出し, それらを組み合わせて, 稀で見えないクラスのためのきめ細かい特徴を構築できる特徴合成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-21T16:18:24Z) - Feature Selection Methods for Uplift Modeling and Heterogeneous
Treatment Effect [1.349645012479288]
アップリフトモデリングは、サブグループレベルの治療効果を推定する因果学習手法である。
従来の機能選択の方法は、そのタスクには適していない。
本稿では,アップリフトモデリングのための特徴選択手法を提案する。
論文 参考訳(メタデータ) (2020-05-05T00:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。