Fugu-MT 論文翻訳(概要): Quantile Encoder: Tackling High Cardinality Categorical Features in Regression Problems

論文の概要: Quantile Encoder: Tackling High Cardinality Categorical Features in Regression Problems

arxiv url: http://arxiv.org/abs/2105.13783v1
Date: Thu, 27 May 2021 11:56:13 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-31 13:31:45.235689
Title: Quantile Encoder: Tackling High Cardinality Categorical Features in Regression Problems
Title（参考訳）: 量子エンコーダ:回帰問題における高次心性カテゴリーの特徴に対処する
Authors: Carlos Mougan, David Masip, Jordi Nin, Oriol Pujol
Abstract要約: 本研究では,高濃度カテゴリー的特徴の量子化への取り組みについて,詳細な分析を行う。提案手法は,従来の統計平均目標エンコーダを含むエンコーダよりも優れている。また、異なる量子量を持つ一連の機能を作成することにより、エンコードされた値を拡張する方法についても述べる。
参考スコア（独自算出の注目度）: 2.3322477552758234
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Regression problems have been widely studied in machinelearning literature resulting in a plethora of regression models and performance measures. However, there are few techniques specially dedicated to solve the problem of how to incorporate categorical features to regression problems. Usually, categorical feature encoders are general enough to cover both classification and regression problems. This lack of specificity results in underperforming regression models. In this paper,we provide an in-depth analysis of how to tackle high cardinality categor-ical features with the quantile. Our proposal outperforms state-of-the-encoders, including the traditional statistical mean target encoder, when considering the Mean Absolute Error, especially in the presence of long-tailed or skewed distributions. Besides, to deal with possible overfitting when there are categories with small support, our encoder benefits from additive smoothing. Finally, we describe how to expand the encoded values by creating a set of features with different quantiles. This expanded encoder provides a more informative output about the categorical feature in question, further boosting the performance of the regression model.
Abstract（参考訳）: 回帰問題は機械学習の文献で広く研究され、多くの回帰モデルと性能測定結果が得られた。しかし,回帰問題に分類学的特徴をどのように組み込むかという課題を特に解決するための技術は少ない。通常、分類的特徴エンコーダは分類問題と回帰問題の両方をカバーするのに十分な一般性を持つ。この特異性の欠如は、回帰モデルの性能の低下をもたらす。本稿では,高濃度カテゴリー的特徴の量子化への取り組みについて,詳細な分析を行う。提案手法は, 従来の統計平均対象エンコーダを含むエンコーダよりも, 平均絶対誤差を考慮した場合, 特に長テール分布や歪分布が存在する場合において優れている。さらに、サポートが小さいカテゴリがある場合のオーバーフィッティングに対処するために、エンコーダは付加的なスムージングによってメリットを享受します。最後に、異なる量子量を持つ特徴セットを作成し、エンコードされた値を拡張する方法について述べる。この拡張エンコーダは、問題のカテゴリ的特徴に関するより情報的な出力を提供し、回帰モデルの性能をさらに向上させる。

関連論文リスト

Distributional encoding for Gaussian process regression with qualitative inputs [0.7342677574855652]
本稿では,分布符号化(DE)に基づく一般化が,対象変数のすべてのサンプルをカテゴリとして利用することを示す。提案手法は実験的に検証され,様々な合成および実世界のデータセットに対して最先端の予測性能を示す。
論文参考訳（メタデータ） (2025-06-05T09:35:02Z)
Generalization bounds for regression and classification on adaptive covering input domains [1.4141453107129398]
一般化誤差の上限となる一般化境界に着目する。分類タスクの場合、対象関数を1ホット、ピースワイド定数関数として扱い、誤差測定に0/1ロスを用いる。
論文参考訳（メタデータ） (2024-07-29T05:40:08Z)
Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文参考訳（メタデータ） (2024-05-01T15:59:00Z)
Robust Capped lp-Norm Support Vector Ordinal Regression [85.84718111830752]
正規回帰は、ラベルが固有の順序を示す特殊な教師付き問題である。卓越した順序回帰モデルとしてのベクトル順序回帰は、多くの順序回帰タスクで広く使われている。我々は,新たなモデルであるCapped $ell_p$-Norm Support Vector Ordinal Regression (CSVOR)を導入する。
論文参考訳（メタデータ） (2024-04-25T13:56:05Z)
An Ordinal Regression Framework for a Deep Learning Based Severity Assessment for Chest Radiographs [50.285682227571996]
本稿では,順序回帰問題をモデル,対象関数,分類関数の3つの部分に分割する枠組みを提案する。符号化の選択が性能に強く影響し,コーエンのカッパの選択重み付けに依存することを示す。
論文参考訳（メタデータ） (2024-02-08T14:00:45Z)
Deep Imbalanced Regression via Hierarchical Classification Adjustment [50.19438850112964]
コンピュータビジョンにおける回帰タスクは、しばしば、対象空間をクラスに定量化することで分類される。トレーニングサンプルの大多数は目標値の先頭にあるが、少数のサンプルは通常より広い尾幅に分布する。不均衡回帰タスクを解くために階層型分類器を構築することを提案する。不均衡回帰のための新しい階層型分類調整(HCA)は,3つのタスクにおいて優れた結果を示す。
論文参考訳（メタデータ） (2023-10-26T04:54:39Z)
Entropy optimized semi-supervised decomposed vector-quantized variational autoencoder model based on transfer learning for multiclass text classification and generation [3.9318191265352196]
多クラステキスト分類とテキスト生成のための半教師付き離散潜在変数モデルを提案する。提案モデルは,量子化変圧器モデルの学習に伝達学習の概念を用いる。実験結果から,提案モデルが最先端モデルを大幅に上回ったことが示唆された。
論文参考訳（メタデータ） (2021-11-10T07:07:54Z)
Learning Debiased and Disentangled Representations for Semantic Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文参考訳（メタデータ） (2021-10-31T16:15:09Z)
Non-Autoregressive Translation by Learning Target Categorical Codes [59.840510037250944]
本論文では,非回帰型復号法に潜在変数として暗黙的に分類符号を学習するCNATを提案する。実験の結果,本モデルは機械翻訳タスクにおいて同等あるいは優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2021-03-21T14:12:34Z)
Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。条件付き量子モデルの任意の数を集約する手法について検討する。この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文参考訳（メタデータ） (2021-02-26T23:21:16Z)
Scalable Variational Gaussian Process Regression Networks [19.699020509495437]
GPRNのためのスケーラブルな変分推論アルゴリズムを提案する。出力空間をテンソル化し、テンソル/マトリクス正規変分後部を導入し、後部相関を捉える。実世界のいくつかの応用において,本手法の利点を実証する。
論文参考訳（メタデータ） (2020-03-25T16:39:47Z)
Boosting Ridge Regression for High Dimensional Data Classification [0.8223798883838329]
リッジ回帰は、分類問題に適応できるよく確立された回帰推定器である。正規化共分散行列の逆変換を含む閉形式解は計算にかなり費用がかかる。本稿では、各回帰器がランダムに投影された部分空間で訓練されるリッジ回帰器のアンサンブルを学習することを検討する。
論文参考訳（メタデータ） (2020-03-25T09:07:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。