論文の概要: Feature Selection Tutorial with Python Examples
- arxiv url: http://arxiv.org/abs/2106.06437v1
- Date: Fri, 11 Jun 2021 14:49:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 18:57:57.377609
- Title: Feature Selection Tutorial with Python Examples
- Title(参考訳): Pythonの例による機能選択チュートリアル
- Authors: Padraig Cunningham, Bahavathy Kathirgamanathan, Sarah Jane Delany
- Abstract要約: 機械学習では、モデル開発に使用するデータセットで利用可能な機能のサブセットを選択する必要がある。
本稿では,Python の実装における主要な手法の概要と実例を紹介する。
- 参考スコア(独自算出の注目度): 2.127049691404299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Machine Learning, feature selection entails selecting a subset of the
available features in a dataset to use for model development. There are many
motivations for feature selection, it may result in better models, it may
provide insight into the data and it may deliver economies in data gathering or
data processing. For these reasons feature selection has received a lot of
attention in data analytics research. In this paper we provide an overview of
the main methods and present practical examples with Python implementations.
While the main focus is on supervised feature selection techniques, we also
cover some feature transformation methods.
- Abstract(参考訳): 機械学習では、モデル開発に使用するデータセットで利用可能な機能のサブセットを選択する必要がある。
機能選択には多くのモチベーションがあり、よりよいモデルをもたらす可能性があり、データに対する洞察を提供し、データ収集やデータ処理において経済をもたらす可能性がある。
これらの理由から、データ分析研究で機能選択が注目されている。
本稿では,Python の実装における主要な手法の概要と実例を紹介する。
主な焦点は、教師付き機能選択技術であるが、いくつかの機能変換方法についても取り上げる。
関連論文リスト
- LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Binary Feature Mask Optimization for Feature Selection [0.0]
本稿では,モデルの予測を考慮した特徴選択を行う新しいフレームワークを提案する。
我々のフレームワークは、選択過程における特徴を排除するために、新しい特徴マスキングアプローチを用いて革新する。
機械学習モデルとしてLightGBMとMulti-Layer Perceptronを用いた実生活データセットの性能改善を示す。
論文 参考訳(メタデータ) (2024-01-23T10:54:13Z) - A Contrast Based Feature Selection Algorithm for High-dimensional Data
set in Machine Learning [9.596923373834093]
本稿では,異なるクラス間で示される相違点に基づいて識別的特徴を抽出する新しいフィルタ特徴選択手法であるContrastFSを提案する。
提案手法の有効性と有効性について検証し,提案手法が無視可能な計算で良好に動作することを示す。
論文 参考訳(メタデータ) (2024-01-15T05:32:35Z) - A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Augmenting data-driven models for energy systems through feature
engineering: A Python framework for feature engineering [0.0]
この作業では、さまざまな機能エンジニアリングメソッドを含むPythonフレームワークを提示する。
フレームワークの実装はPythonライブラリのScikit-learnに基づいている。
選択された特徴工学手法を含むデータ駆動モデルを作成する。
論文 参考訳(メタデータ) (2023-01-04T17:37:15Z) - Handcrafted Feature Selection Techniques for Pattern Recognition: A
Survey [0.0]
特徴選択は、情報を適切に表現するためのプロセスである。
本稿では,手作り特徴選択のためのフィルタとラッパー法について検討する。
論文 参考訳(メタデータ) (2022-09-06T18:05:35Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。