論文の概要: Quantile Encoder: Tackling High Cardinality Categorical Features in
Regression Problems
- arxiv url: http://arxiv.org/abs/2105.13783v1
- Date: Thu, 27 May 2021 11:56:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 13:31:45.235689
- Title: Quantile Encoder: Tackling High Cardinality Categorical Features in
Regression Problems
- Title(参考訳): 量子エンコーダ:回帰問題における高次心性カテゴリーの特徴に対処する
- Authors: Carlos Mougan, David Masip, Jordi Nin, Oriol Pujol
- Abstract要約: 本研究では,高濃度カテゴリー的特徴の量子化への取り組みについて,詳細な分析を行う。
提案手法は,従来の統計平均目標エンコーダを含むエンコーダよりも優れている。
また、異なる量子量を持つ一連の機能を作成することにより、エンコードされた値を拡張する方法についても述べる。
- 参考スコア(独自算出の注目度): 2.3322477552758234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Regression problems have been widely studied in machinelearning literature
resulting in a plethora of regression models and performance measures. However,
there are few techniques specially dedicated to solve the problem of how to
incorporate categorical features to regression problems. Usually, categorical
feature encoders are general enough to cover both classification and regression
problems. This lack of specificity results in underperforming regression
models. In this paper,we provide an in-depth analysis of how to tackle high
cardinality categor-ical features with the quantile. Our proposal outperforms
state-of-the-encoders, including the traditional statistical mean target
encoder, when considering the Mean Absolute Error, especially in the presence
of long-tailed or skewed distributions. Besides, to deal with possible
overfitting when there are categories with small support, our encoder benefits
from additive smoothing. Finally, we describe how to expand the encoded values
by creating a set of features with different quantiles. This expanded encoder
provides a more informative output about the categorical feature in question,
further boosting the performance of the regression model.
- Abstract(参考訳): 回帰問題は機械学習の文献で広く研究され、多くの回帰モデルと性能測定結果が得られた。
しかし,回帰問題に分類学的特徴をどのように組み込むかという課題を特に解決するための技術は少ない。
通常、分類的特徴エンコーダは分類問題と回帰問題の両方をカバーするのに十分な一般性を持つ。
この特異性の欠如は、回帰モデルの性能の低下をもたらす。
本稿では,高濃度カテゴリー的特徴の量子化への取り組みについて,詳細な分析を行う。
提案手法は, 従来の統計平均対象エンコーダを含むエンコーダよりも, 平均絶対誤差を考慮した場合, 特に長テール分布や歪分布が存在する場合において優れている。
さらに、サポートが小さいカテゴリがある場合のオーバーフィッティングに対処するために、エンコーダは付加的なスムージングによってメリットを享受します。
最後に、異なる量子量を持つ特徴セットを作成し、エンコードされた値を拡張する方法について述べる。
この拡張エンコーダは、問題のカテゴリ的特徴に関するより情報的な出力を提供し、回帰モデルの性能をさらに向上させる。
関連論文リスト
- An Ordinal Regression Framework for a Deep Learning Based Severity
Assessment for Chest Radiographs [50.285682227571996]
本稿では,順序回帰問題をモデル,対象関数,分類関数の3つの部分に分割する枠組みを提案する。
符号化の選択が性能に強く影響し,コーエンのカッパの選択重み付けに依存することを示す。
論文 参考訳(メタデータ) (2024-02-08T14:00:45Z) - Deep Imbalanced Regression via Hierarchical Classification Adjustment [50.19438850112964]
コンピュータビジョンにおける回帰タスクは、しばしば、対象空間をクラスに定量化することで分類される。
トレーニングサンプルの大多数は目標値の先頭にあるが、少数のサンプルは通常より広い尾幅に分布する。
不均衡回帰タスクを解くために階層型分類器を構築することを提案する。
不均衡回帰のための新しい階層型分類調整(HCA)は,3つのタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2023-10-26T04:54:39Z) - Entropy optimized semi-supervised decomposed vector-quantized
variational autoencoder model based on transfer learning for multiclass text
classification and generation [3.9318191265352196]
多クラステキスト分類とテキスト生成のための半教師付き離散潜在変数モデルを提案する。
提案モデルは,量子化変圧器モデルの学習に伝達学習の概念を用いる。
実験結果から,提案モデルが最先端モデルを大幅に上回ったことが示唆された。
論文 参考訳(メタデータ) (2021-11-10T07:07:54Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing
Regressions In NLP Model Updates [68.09049111171862]
この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に重点を置いている。
回帰フリーモデル更新を制約付き最適化問題に定式化する。
モデルアンサンブルが回帰を減らす方法を実証的に分析します。
論文 参考訳(メタデータ) (2021-05-07T03:33:00Z) - Non-Autoregressive Translation by Learning Target Categorical Codes [59.840510037250944]
本論文では,非回帰型復号法に潜在変数として暗黙的に分類符号を学習するCNATを提案する。
実験の結果,本モデルは機械翻訳タスクにおいて同等あるいは優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-03-21T14:12:34Z) - Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。
条件付き量子モデルの任意の数を集約する手法について検討する。
この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文 参考訳(メタデータ) (2021-02-26T23:21:16Z) - Robustifying Binary Classification to Adversarial Perturbation [45.347651499585055]
本稿では,対向摂動を伴う二分分類の問題について考察する。
データを操作する際の敵の力を考慮に入れたマックスマージン分類器に一般化を導入する。
損失関数に関するいくつかの軽微な仮定の下では、勾配降下がその方向のRM分類器に収束することを理論的に示す。
論文 参考訳(メタデータ) (2020-10-29T07:20:37Z) - Scalable Variational Gaussian Process Regression Networks [19.699020509495437]
GPRNのためのスケーラブルな変分推論アルゴリズムを提案する。
出力空間をテンソル化し、テンソル/マトリクス正規変分後部を導入し、後部相関を捉える。
実世界のいくつかの応用において,本手法の利点を実証する。
論文 参考訳(メタデータ) (2020-03-25T16:39:47Z) - Boosting Ridge Regression for High Dimensional Data Classification [0.8223798883838329]
リッジ回帰は、分類問題に適応できるよく確立された回帰推定器である。
正規化共分散行列の逆変換を含む閉形式解は計算にかなり費用がかかる。
本稿では、各回帰器がランダムに投影された部分空間で訓練されるリッジ回帰器のアンサンブルを学習することを検討する。
論文 参考訳(メタデータ) (2020-03-25T09:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。