論文の概要: PCA-based Category Encoder for Categorical to Numerical Variable
Conversion
- arxiv url: http://arxiv.org/abs/2111.14839v1
- Date: Mon, 29 Nov 2021 12:49:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 15:56:48.589525
- Title: PCA-based Category Encoder for Categorical to Numerical Variable
Conversion
- Title(参考訳): pcaを用いた数値変数変換のためのカテゴリエンコーダ
- Authors: Hamed Farkhari, Joseanne Viana, Luis Miguel Campos, Pedro Sebastiao,
Rodolfo Oliveira, Luis Bernardo
- Abstract要約: 分類変数の濃度の上昇は、機械学習(ML)アルゴリズムの全体的な性能を低下させる可能性がある。
本稿では,カテゴリー変数を数値変数に変換する計算前処理手法を提案する。
提案手法は,高濃度カテゴリー変数上での精度とAUC(Area under the curve)に関する最高性能を達成した。
- 参考スコア(独自算出の注目度): 1.1156827035309407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Increasing the cardinality of categorical variables might decrease the
overall performance of ML algorithms. This paper presents a novel computational
preprocessing method to convert categorical to numerical variables for machine
learning (ML) algorithms. In this method, We select and convert three
categorical features to numerical features. First, we choose the threshold
parameter based on the distribution of categories in variables. Then, we use
conditional probabilities to convert each categorical variable into two new
numerical variables, resulting in six new numerical variables in total. After
that, we feed these six numerical variables to the Principal Component Analysis
(PCA) algorithm. Next, we select the whole or partial numbers of Principal
Components (PCs). Finally, by applying binary classification with ten different
classifiers, We measured the performance of the new encoder and compared it
with the other 17 well-known category encoders. The proposed technique achieved
the highest performance related to accuracy and Area under the curve (AUC) on
high cardinality categorical variables using the well-known cybersecurity
NSLKDD dataset. Also, we defined harmonic average metrics to find the best
trade-off between train and test performance and prevent underfitting and
overfitting. Ultimately, the number of newly created numerical variables is
minimal. Consequently, this data reduction improves computational processing
time which might reduce processing data in 5G future telecommunication
networks.
- Abstract(参考訳): 分類変数の濃度の上昇は、MLアルゴリズム全体の性能を低下させる可能性がある。
本稿では,機械学習(ml)アルゴリズムのカテゴリを数値変数に変換する新しい計算前処理法を提案する。
本研究では,3つの分類特徴を数値的特徴量に変換する。
まず,変数のカテゴリの分布に基づいてしきい値パラメータを選択する。
次に条件付き確率を用いて各カテゴリー変数を2つの新しい数値変数に変換し,合計6つの数値変数を生成する。
その後、これら6つの数値変数を主成分分析(PCA)アルゴリズムに供給する。
次に、主成分(PC)の全体または部分数を選択する。
最後に,10種類の分類器を用いたバイナリ分類を行い,新しいエンコーダの性能を測定し,他の17個のカテゴリエンコーダと比較した。
提案手法は、よく知られたサイバーセキュリティNSLKDDデータセットを用いて、高濃度カテゴリ変数に基づく精度とAUC(Area under the curve)に関する最高性能を達成した。
また,高調波平均指標を定義して,列車とテスト性能の最良のトレードオフを見つけ,過給や過給を防止する。
最終的に、新しく作られた数値変数の数は最小である。
これにより、5gの将来の通信ネットワークにおける処理データを削減できる計算処理時間を短縮できる。
関連論文リスト
- Fractional Naive Bayes (FNB): non-convex optimization for a parsimonious weighted selective naive Bayes classifier [0.0]
非常に多数の入力変数を持つデータセットの分類を監督した。
本稿では,このモデルを用いたBalihoodの正規化を提案する。
提案したアルゴリズムは最適化に基づく重み付けNa"iveesスキームをもたらす。
論文 参考訳(メタデータ) (2024-09-17T11:54:14Z) - Non-parametric Conditional Independence Testing for Mixed
Continuous-Categorical Variables: A Novel Method and Numerical Evaluation [14.993705256147189]
条件独立テスト(CIT)は機械学習において一般的なタスクである。
多くの実世界のアプリケーションは、数値変数と分類変数を含む混合型データセットを含んでいる。
分類変数を数値として扱わない従来のアプローチのバリエーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T10:29:23Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Prediction Calibration for Generalized Few-shot Semantic Segmentation [101.69940565204816]
汎用Few-shot Semantic (GFSS) は、各画像ピクセルを、豊富なトレーニング例を持つベースクラスか、クラスごとにわずかに(例: 1-5)のトレーニングイメージを持つ新しいクラスのいずれかに分割することを目的としている。
我々は、融合したマルチレベル機能を用いて、分類器の最終予測をガイドするクロスアテンションモジュールを構築する。
私たちのPCNは、最先端の代替品よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2022-10-15T13:30:12Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Determination of class-specific variables in nonparametric
multiple-class classification [0.0]
確率に基づく非パラメトリックな多重クラス分類法を提案し、それを個々のクラスに対して高い影響変数を識別する能力と統合する。
提案手法の特性を報告し, 合成データと実データの両方を用いて, 異なる分類条件下での特性を説明する。
論文 参考訳(メタデータ) (2022-05-07T10:08:58Z) - Confusion-based rank similarity filters for computationally-efficient
machine learning on high dimensional data [0.0]
我々は、ランク類似度フィルタ(RSF)と呼ばれる、計算効率の良い新しいタイプの人工知能ニューラルネットワーク(ANN)を導入する。
RSFは、多くのデータポイントと次元を持つ非線形分離可能なデータセットを変換し、分類するために使用することができる。
RST、RCC、RSPCのオープンソースコードは、人気のあるScikit-learnフレームワークを使用してPythonで書かれており、簡単にアクセスできる。
論文 参考訳(メタデータ) (2021-09-28T10:53:38Z) - Regularized target encoding outperforms traditional methods in
supervised machine learning with high cardinality features [1.1709030738577393]
分類変数の数値表現を導出する手法を検討する。
異なるエンコーディング戦略と5つの機械学習アルゴリズムを比較した。
ターゲットエンコーディングの正規化バージョンが一貫して最高の結果を提供した。
論文 参考訳(メタデータ) (2021-04-01T17:21:42Z) - High-Dimensional Quadratic Discriminant Analysis under Spiked Covariance
Model [101.74172837046382]
そこで本研究では,魚の識別比を最大化する2次分類手法を提案する。
数値シミュレーションにより,提案した分類器は,合成データと実データの両方において古典的R-QDAよりも優れるだけでなく,計算量の削減も要求されることがわかった。
論文 参考訳(メタデータ) (2020-06-25T12:00:26Z) - Variance Reduction with Sparse Gradients [82.41780420431205]
SVRGやSpiderBoostのような分散還元法では、大きなバッチ勾配と小さなバッチ勾配が混在している。
我々は、新しい空間演算子:ランダムトップk演算子を導入する。
我々のアルゴリズムは、画像分類、自然言語処理、スパース行列分解など様々なタスクにおいて、一貫してSpiderBoostより優れています。
論文 参考訳(メタデータ) (2020-01-27T08:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。