論文の概要: Quantile Encoder: Tackling High Cardinality Categorical Features in
Regression Problems
- arxiv url: http://arxiv.org/abs/2105.13783v1
- Date: Thu, 27 May 2021 11:56:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 13:31:45.235689
- Title: Quantile Encoder: Tackling High Cardinality Categorical Features in
Regression Problems
- Title(参考訳): 量子エンコーダ:回帰問題における高次心性カテゴリーの特徴に対処する
- Authors: Carlos Mougan, David Masip, Jordi Nin, Oriol Pujol
- Abstract要約: 本研究では,高濃度カテゴリー的特徴の量子化への取り組みについて,詳細な分析を行う。
提案手法は,従来の統計平均目標エンコーダを含むエンコーダよりも優れている。
また、異なる量子量を持つ一連の機能を作成することにより、エンコードされた値を拡張する方法についても述べる。
- 参考スコア(独自算出の注目度): 2.3322477552758234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Regression problems have been widely studied in machinelearning literature
resulting in a plethora of regression models and performance measures. However,
there are few techniques specially dedicated to solve the problem of how to
incorporate categorical features to regression problems. Usually, categorical
feature encoders are general enough to cover both classification and regression
problems. This lack of specificity results in underperforming regression
models. In this paper,we provide an in-depth analysis of how to tackle high
cardinality categor-ical features with the quantile. Our proposal outperforms
state-of-the-encoders, including the traditional statistical mean target
encoder, when considering the Mean Absolute Error, especially in the presence
of long-tailed or skewed distributions. Besides, to deal with possible
overfitting when there are categories with small support, our encoder benefits
from additive smoothing. Finally, we describe how to expand the encoded values
by creating a set of features with different quantiles. This expanded encoder
provides a more informative output about the categorical feature in question,
further boosting the performance of the regression model.
- Abstract(参考訳): 回帰問題は機械学習の文献で広く研究され、多くの回帰モデルと性能測定結果が得られた。
しかし,回帰問題に分類学的特徴をどのように組み込むかという課題を特に解決するための技術は少ない。
通常、分類的特徴エンコーダは分類問題と回帰問題の両方をカバーするのに十分な一般性を持つ。
この特異性の欠如は、回帰モデルの性能の低下をもたらす。
本稿では,高濃度カテゴリー的特徴の量子化への取り組みについて,詳細な分析を行う。
提案手法は, 従来の統計平均対象エンコーダを含むエンコーダよりも, 平均絶対誤差を考慮した場合, 特に長テール分布や歪分布が存在する場合において優れている。
さらに、サポートが小さいカテゴリがある場合のオーバーフィッティングに対処するために、エンコーダは付加的なスムージングによってメリットを享受します。
最後に、異なる量子量を持つ特徴セットを作成し、エンコードされた値を拡張する方法について述べる。
この拡張エンコーダは、問題のカテゴリ的特徴に関するより情報的な出力を提供し、回帰モデルの性能をさらに向上させる。
関連論文リスト
- Generalization bounds for regression and classification on adaptive covering input domains [1.4141453107129398]
一般化誤差の上限となる一般化境界に着目する。
分類タスクの場合、対象関数を1ホット、ピースワイド定数関数として扱い、誤差測定に0/1ロスを用いる。
論文 参考訳(メタデータ) (2024-07-29T05:40:08Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Robust Capped lp-Norm Support Vector Ordinal Regression [85.84718111830752]
正規回帰は、ラベルが固有の順序を示す特殊な教師付き問題である。
卓越した順序回帰モデルとしてのベクトル順序回帰は、多くの順序回帰タスクで広く使われている。
我々は,新たなモデルであるCapped $ell_p$-Norm Support Vector Ordinal Regression (CSVOR)を導入する。
論文 参考訳(メタデータ) (2024-04-25T13:56:05Z) - An Ordinal Regression Framework for a Deep Learning Based Severity
Assessment for Chest Radiographs [50.285682227571996]
本稿では,順序回帰問題をモデル,対象関数,分類関数の3つの部分に分割する枠組みを提案する。
符号化の選択が性能に強く影響し,コーエンのカッパの選択重み付けに依存することを示す。
論文 参考訳(メタデータ) (2024-02-08T14:00:45Z) - Deep Imbalanced Regression via Hierarchical Classification Adjustment [50.19438850112964]
コンピュータビジョンにおける回帰タスクは、しばしば、対象空間をクラスに定量化することで分類される。
トレーニングサンプルの大多数は目標値の先頭にあるが、少数のサンプルは通常より広い尾幅に分布する。
不均衡回帰タスクを解くために階層型分類器を構築することを提案する。
不均衡回帰のための新しい階層型分類調整(HCA)は,3つのタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2023-10-26T04:54:39Z) - Entropy optimized semi-supervised decomposed vector-quantized
variational autoencoder model based on transfer learning for multiclass text
classification and generation [3.9318191265352196]
多クラステキスト分類とテキスト生成のための半教師付き離散潜在変数モデルを提案する。
提案モデルは,量子化変圧器モデルの学習に伝達学習の概念を用いる。
実験結果から,提案モデルが最先端モデルを大幅に上回ったことが示唆された。
論文 参考訳(メタデータ) (2021-11-10T07:07:54Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Non-Autoregressive Translation by Learning Target Categorical Codes [59.840510037250944]
本論文では,非回帰型復号法に潜在変数として暗黙的に分類符号を学習するCNATを提案する。
実験の結果,本モデルは機械翻訳タスクにおいて同等あるいは優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-03-21T14:12:34Z) - Scalable Variational Gaussian Process Regression Networks [19.699020509495437]
GPRNのためのスケーラブルな変分推論アルゴリズムを提案する。
出力空間をテンソル化し、テンソル/マトリクス正規変分後部を導入し、後部相関を捉える。
実世界のいくつかの応用において,本手法の利点を実証する。
論文 参考訳(メタデータ) (2020-03-25T16:39:47Z) - Boosting Ridge Regression for High Dimensional Data Classification [0.8223798883838329]
リッジ回帰は、分類問題に適応できるよく確立された回帰推定器である。
正規化共分散行列の逆変換を含む閉形式解は計算にかなり費用がかかる。
本稿では、各回帰器がランダムに投影された部分空間で訓練されるリッジ回帰器のアンサンブルを学習することを検討する。
論文 参考訳(メタデータ) (2020-03-25T09:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。