論文の概要: Encoding categorical data: Is there yet anything 'hotter' than one-hot
encoding?
- arxiv url: http://arxiv.org/abs/2312.16930v1
- Date: Thu, 28 Dec 2023 09:56:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 16:50:15.022898
- Title: Encoding categorical data: Is there yet anything 'hotter' than one-hot
encoding?
- Title(参考訳): カテゴリデータのエンコーディング: ワンホットのエンコーディングよりも"ホット"なコードはありますか?
- Authors: Ekaterina Poslavskaya, Alexey Korolev
- Abstract要約: 本研究は,OpenMLリポジトリの分類問題の包括的サンプルにおける符号化効果について検討する。
マルチクラスタスクでは、ワンホットエンコーディングとヘルマートコントラストがターゲットベースエンコーダよりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Categorical features are present in about 40% of real world problems,
highlighting the crucial role of encoding as a preprocessing component. Some
recent studies have reported benefits of the various target-based encoders over
classical target-agnostic approaches. However, these claims are not supported
by any statistical analysis, and are based on a single dataset or a very small
and heterogeneous sample of datasets. The present study explores the encoding
effects in an exhaustive sample of classification problems from OpenML
repository. We fitted linear mixed-effects models to the experimental data,
treating task ID as a random effect, and the encoding scheme and the various
characteristics of categorical features as fixed effects. We found that in
multiclass tasks, one-hot encoding and Helmert contrast coding outperform
target-based encoders. In binary tasks, there were no significant differences
across the encoding schemes; however, one-hot encoding demonstrated a
marginally positive effect on the outcome. Importantly, we found no significant
interactions between the encoding schemes and the characteristics of
categorical features. This suggests that our findings are generalizable to a
wide variety of problems across domains.
- Abstract(参考訳): カテゴリ的特徴は現実世界の問題の約40%に存在し、前処理コンポーネントとしてのエンコーディングの重要な役割を強調している。
近年の研究では、古典的標的非依存アプローチに対する様々なターゲットベースエンコーダの利点が報告されている。
しかし、これらの主張はいかなる統計分析にも支持されず、単一のデータセットまたは非常に小さく異質なデータセットのサンプルに基づいている。
本研究は,OpenMLリポジトリの分類問題の包括的サンプルにおける符号化効果について検討する。
実験データに線形混合効果モデルを適用し、タスクIDをランダムな効果として扱い、符号化方式とカテゴリ特徴の様々な特性を固定的な効果として扱う。
マルチクラスタスクでは、ワンホットエンコーディングとヘルマートコントラストがターゲットベースエンコーダよりも優れていた。
二項処理では符号化方式に有意な差はなかったが、一点符号化は結果にわずかに正の効果を示した。
重要なことに,エンコーディング方式とカテゴリの特徴との間に有意な相互作用は認められなかった。
これは、我々の発見が、ドメインをまたがる幅広い問題に一般化できることを示唆している。
関連論文リスト
- Tabular Learning: Encoding for Entity and Context Embeddings [0.0]
異なるエンコーディング手法がエンティティとコンテキストの埋め込みに与える影響を調べる。
複数のデータセットに異なる前処理方法とネットワークアーキテクチャを適用することで、エンコーダがネットワークの学習結果にどのように影響するかのベンチマークが得られた。
論文 参考訳(メタデータ) (2024-03-28T13:29:29Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - On the Suitability of Representations for Quality Diversity Optimization
of Shapes [77.34726150561087]
進化的アルゴリズムで使用される表現、あるいは符号化は、その性能に大きな影響を及ぼす。
本研究では, 直接符号化, 辞書ベース表現, パラメトリック符号化, 合成パターン生成ネットワーク, セルオートマトンなどの表現が, 酸化メッシュの生成に与える影響について比較した。
論文 参考訳(メタデータ) (2023-04-07T07:34:23Z) - Practical Approaches for Fair Learning with Multitype and Multivariate
Sensitive Attributes [70.6326967720747]
現実世界に展開された機械学習アルゴリズムが不公平さや意図しない社会的結果をもたらすことはないことを保証することが重要である。
本稿では,カーネルHilbert Spacesの相互共分散演算子上に構築されたフェアネス尺度であるFairCOCCOを紹介する。
実世界のデータセットにおける予測能力と公正性のバランスをとる上で、最先端技術に対する一貫した改善を実証的に示す。
論文 参考訳(メタデータ) (2022-11-11T11:28:46Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Quantile Encoder: Tackling High Cardinality Categorical Features in
Regression Problems [2.3322477552758234]
本研究では,高濃度カテゴリー的特徴の量子化への取り組みについて,詳細な分析を行う。
提案手法は,従来の統計平均目標エンコーダを含むエンコーダよりも優れている。
また、異なる量子量を持つ一連の機能を作成することにより、エンコードされた値を拡張する方法についても述べる。
論文 参考訳(メタデータ) (2021-05-27T11:56:13Z) - Deep ensembles based on Stochastic Activation Selection for Polyp
Segmentation [82.61182037130406]
本研究は,大腸内視鏡検査における画像分割,特に正確なポリープ検出とセグメンテーションを扱う。
イメージセグメンテーションの基本アーキテクチャはエンコーダとデコーダで構成されている。
我々はデコーダのバックボーンを変更することで得られるDeepLabアーキテクチャのバリエーションを比較した。
論文 参考訳(メタデータ) (2021-04-02T02:07:37Z) - Regularized target encoding outperforms traditional methods in
supervised machine learning with high cardinality features [1.1709030738577393]
分類変数の数値表現を導出する手法を検討する。
異なるエンコーディング戦略と5つの機械学習アルゴリズムを比較した。
ターゲットエンコーディングの正規化バージョンが一貫して最高の結果を提供した。
論文 参考訳(メタデータ) (2021-04-01T17:21:42Z) - Sparse encoding for more-interpretable feature-selecting representations
in probabilistic matrix factorization [0.5570192369031546]
階層的ポアソン行列ファクタリゼーション(HPF)およびその他の疎確率非負行列ファクタリゼーション(NMF)法は、解釈可能な生成モデルであると考えられている。
HPFはしばしば、エンコーダの間隔を持つかのように、文献で誤って解釈される。
一般化加法モデル (GAM) を用いて, エンコーダ空間を自己整合的に拡張することで, この欠陥に対処する。
論文 参考訳(メタデータ) (2020-12-08T02:27:22Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - Establishing strong imputation performance of a denoising autoencoder in
a wide range of missing data problems [0.0]
トレーニングと計算の両方に一貫したフレームワークを開発します。
結果と最先端の計算手法を比較検討した。
開発されたオートエンコーダは、初期データ破損のあらゆる範囲において最小の誤差を得た。
論文 参考訳(メタデータ) (2020-04-06T12:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。