論文の概要: Regularized target encoding outperforms traditional methods in
supervised machine learning with high cardinality features
- arxiv url: http://arxiv.org/abs/2104.00629v1
- Date: Thu, 1 Apr 2021 17:21:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 19:35:27.421612
- Title: Regularized target encoding outperforms traditional methods in
supervised machine learning with high cardinality features
- Title(参考訳): 高濃度特徴を有する教師付き機械学習における正規化対象符号化は従来の手法を上回る
- Authors: Florian Pargent, Florian Pfisterer, Janek Thomas, Bernd Bischl
- Abstract要約: 分類変数の数値表現を導出する手法を検討する。
異なるエンコーディング戦略と5つの機械学習アルゴリズムを比較した。
ターゲットエンコーディングの正規化バージョンが一貫して最高の結果を提供した。
- 参考スコア(独自算出の注目度): 1.1709030738577393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Because most machine learning (ML) algorithms are designed for numerical
inputs, efficiently encoding categorical variables is a crucial aspect during
data analysis. An often encountered problem are high cardinality features, i.e.
unordered categorical predictor variables with a high number of levels. We
study techniques that yield numeric representations of categorical variables
which can then be used in subsequent ML applications. We focus on the impact of
those techniques on a subsequent algorithm's predictive performance, and -- if
possible -- derive best practices on when to use which technique. We conducted
a large-scale benchmark experiment, where we compared different encoding
strategies together with five ML algorithms (lasso, random forest, gradient
boosting, k-nearest neighbours, support vector machine) using datasets from
regression, binary- and multiclass- classification settings. Throughout our
study, regularized versions of target encoding (i.e. using target predictions
based on the feature levels in the training set as a new numerical feature)
consistently provided the best results. Traditional encodings that make
unreasonable assumptions to map levels to integers (e.g. integer encoding) or
to reduce the number of levels (possibly based on target information, e.g. leaf
encoding) before creating binary indicator variables (one-hot or dummy
encoding) were not as effective.
- Abstract(参考訳): ほとんどの機械学習(ML)アルゴリズムは数値入力用に設計されているため、分類変数を効率的に符号化することは、データ解析において重要な側面である。
しばしば遭遇する問題は高濃度の特徴である。
無秩序なカテゴリー予測変数で 多数のレベルがあります
分類変数の数値表現を導出する手法について検討し,その後のML応用に適用できることを示す。
これらのテクニックがその後のアルゴリズムの予測性能に与える影響に注目し、可能であれば、そのテクニックをいつ使うかのベストプラクティスを導き出す。
大規模ベンチマーク実験を行い,回帰,バイナリ,マルチクラス分類設定のデータセットを用いて,5つのmlアルゴリズム(lasso,random forest,gradient boosting,k-nearest neighbors, support vector machine)と異なる符号化戦略を比較した。
我々の研究全体を通して、ターゲットエンコーディングの正規化バージョン(すなわち、)。
新しい数値的特徴としてトレーニングセットの特徴レベルに基づく目標予測を使用することで、一貫して最高の結果が得られます。
整数にレベルをマップするために不合理な仮定をする伝統的なエンコーディング(例)
整数エンコーディング) またはレベル(おそらくターゲット情報に基づいて)の数を減少させる。
リーフエンコーディング) バイナリインジケータ変数(ワンホットまたはダミーエンコーディング)を作成する前には、あまり効果がなかった。
関連論文リスト
- Label Encoding for Regression Networks [9.386028796990399]
回帰へのバイナリ分類の適用を一般化するバイナリ符号化ラベル(BEL)を導入する。
BELはいくつかの回帰ベンチマークで最先端の精度を達成する。
論文 参考訳(メタデータ) (2022-12-04T21:23:36Z) - Towards Better Out-of-Distribution Generalization of Neural Algorithmic
Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。
目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文 参考訳(メタデータ) (2022-11-01T18:33:20Z) - Efficient Syndrome Decoder for Heavy Hexagonal QECC via Machine Learning [1.1156329459915602]
近年の進歩により、トポロジカルコードは機械学習(ML)技術の展開によって効率的に復号化可能であることが示されている。
まず、ヘキサゴナルコードのためのMLベースのデコーダを提案し、しきい値と擬似閾値の値でその効率性を確立する。
等価なエラークラスを決定するランクに基づく新しい手法が提案され、線形探索に基づくクラスよりも経験的に高速である。
論文 参考訳(メタデータ) (2022-10-18T10:16:14Z) - Towards Diverse Evaluation of Class Incremental Learning: A Representation Learning Perspective [67.45111837188685]
クラスインクリメンタル学習(CIL)アルゴリズムは、インクリメンタルに到着したデータから新しいオブジェクトクラスを継続的に学習することを目的としている。
表現学習における様々な評価プロトコルを用いて,CILアルゴリズムによって訓練されたニューラルネットワークモデルを実験的に解析する。
論文 参考訳(メタデータ) (2022-06-16T11:44:11Z) - Variational Sparse Coding with Learned Thresholding [6.737133300781134]
サンプルをしきい値にすることでスパース分布を学習できる変分スパース符号化の新しい手法を提案する。
まず,線形発生器を訓練し,その性能,統計的効率,勾配推定に優れることを示す。
論文 参考訳(メタデータ) (2022-05-07T14:49:50Z) - Efficient and Differentiable Conformal Prediction with General Function
Classes [96.74055810115456]
本稿では,複数の学習可能なパラメータに対する共形予測の一般化を提案する。
本研究は, クラス内において, ほぼ有効な人口被覆率, ほぼ最適効率を実現していることを示す。
実験の結果,提案アルゴリズムは有効な予測セットを学習し,効率を著しく向上できることがわかった。
論文 参考訳(メタデータ) (2022-02-22T18:37:23Z) - PCA-based Category Encoder for Categorical to Numerical Variable
Conversion [1.1156827035309407]
分類変数の濃度の上昇は、機械学習(ML)アルゴリズムの全体的な性能を低下させる可能性がある。
本稿では,カテゴリー変数を数値変数に変換する計算前処理手法を提案する。
提案手法は,高濃度カテゴリー変数上での精度とAUC(Area under the curve)に関する最高性能を達成した。
論文 参考訳(メタデータ) (2021-11-29T12:49:20Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。