論文の概要: CardiCat: a Variational Autoencoder for High-Cardinality Tabular Data
- arxiv url: http://arxiv.org/abs/2501.17324v1
- Date: Tue, 28 Jan 2025 22:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:54:42.924916
- Title: CardiCat: a Variational Autoencoder for High-Cardinality Tabular Data
- Title(参考訳): CardiCat:高次タブラリデータのための変分オートエンコーダ
- Authors: Lee Carlin, Yuval Benjamini,
- Abstract要約: 本稿では,不均衡な高次および不均一なデータに精度よく適合する,一般的な変分オートエンコーダモデルであるCardiCatを提案する。
本手法は, 正規化二重エンコーダデコーダ埋込層を用いたワンホット符号化に代えて, 共同で学習する。
我々のモデルは、競合する手法よりも訓練可能なパラメータ空間がかなり小さく、大規模に学習することが可能である。
- 参考スコア(独自算出の注目度): 2.0564549686015594
- License:
- Abstract: High-cardinality categorical features are a common characteristic of mixed-type tabular datasets. Existing generative model architectures struggle to learn the complexities of such data at scale, primarily due to the difficulty of parameterizing the categorical features. In this paper, we present a general variational autoencoder model, CardiCat, that can accurately fit imbalanced high-cardinality and heterogeneous tabular data. Our method substitutes one-hot encoding with regularized dual encoder-decoder embedding layers, which are jointly learned. This approach enables us to use embeddings that depend also on the other covariates, leading to a compact and homogenized parameterization of categorical features. Our model employs a considerably smaller trainable parameter space than competing methods, enabling learning at a large scale. CardiCat generates high-quality synthetic data that better represent high-cardinality and imbalanced features compared to competing VAE models for multiple real and simulated datasets.
- Abstract(参考訳): 高カルチナリティの分類的特徴は混合型表型データセットの共通の特徴である。
既存の生成モデルアーキテクチャは、分類的特徴のパラメータ化が困難であるために、そのようなデータの複雑さを大規模に学ぶのに苦労している。
本稿では,不均衡な高次および不均一な表データに精度よく適合する,一般的な変分オートエンコーダモデルであるCardiCatを提案する。
そこで本手法では, 正規化二重エンコーダデコーダの埋め込み層を1ホット符号化に代えて, 共同で学習する。
このアプローチにより、他の共変量にも依存する埋め込みが利用可能となり、分類的特徴のコンパクトで均質なパラメータ化がもたらされる。
我々のモデルは、競合する手法よりも訓練可能なパラメータ空間がかなり小さく、大規模に学習することが可能である。
CardiCatは、複数の実データとシミュレートされたデータセットの競合するVAEモデルと比較して、高カルティ性と不均衡な特徴をよりよく表現する高品質な合成データを生成する。
関連論文リスト
- TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Calibrated Dataset Condensation for Faster Hyperparameter Search [23.790315967011345]
最先端のアプローチは、実データと合成データの間のモデル勾配のマッチングに依存する。
本稿では,ハイパーパラメータ探索を対象とする異なる凝縮目標について考察する。
論文 参考訳(メタデータ) (2024-05-27T17:55:01Z) - A Comparison of Machine Learning Methods for Data with High-Cardinality
Categorical Variables [6.85316573653194]
機械学習の手法は、高心身変数では困難である。
本稿では,最も成功した機械学習手法の2つのバージョンを実証的に比較する。
論文 参考訳(メタデータ) (2023-07-05T07:26:27Z) - Phantom Embeddings: Using Embedding Space for Model Regularization in
Deep Neural Networks [12.293294756969477]
機械学習モデルの強みは、データから複雑な関数近似を学ぶ能力に起因している。
複雑なモデルはトレーニングデータを記憶する傾向があり、結果としてテストデータの正規化性能が低下する。
情報豊富な潜伏埋め込みと高いクラス内相関を利用してモデルを正規化するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-14T17:15:54Z) - A Missing Value Filling Model Based on Feature Fusion Enhanced
Autoencoder [7.232232177308124]
本稿では,機能融合型オートエンコーダをベースとした不足値充足モデルを提案する。
動的クラスタリングに基づく,不足値の充足戦略を開発した。
提案手法の有効性を実験により検証した。
論文 参考訳(メタデータ) (2022-08-29T10:56:12Z) - Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。
本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T12:52:49Z) - Latent Vector Expansion using Autoencoder for Anomaly Detection [1.370633147306388]
オートエンコーダの特徴を利用して,低次元から高次元の潜在ベクトルを訓練する。
不均衡なデータの分類性能を向上させる潜在ベクトル展開オートエンコーダモデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:28:38Z) - Adaptive Hierarchical Similarity Metric Learning with Noisy Labels [138.41576366096137]
適応的階層的類似度メトリック学習法を提案する。
ノイズに敏感な2つの情報、すなわち、クラスワイドのばらつきとサンプルワイドの一貫性を考える。
提案手法は,現在の深層学習手法と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-10-29T02:12:18Z) - Mixture Model Auto-Encoders: Deep Clustering through Dictionary Learning [72.9458277424712]
Mixture Model Auto-Encoders (MixMate)は、生成モデルで推論を実行することでデータをクラスタリングする新しいアーキテクチャである。
最先端のディープクラスタリングアルゴリズムと比較して,MixMateは競争性能が高いことを示す。
論文 参考訳(メタデータ) (2021-10-10T02:30:31Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - High-Dimensional Quadratic Discriminant Analysis under Spiked Covariance
Model [101.74172837046382]
そこで本研究では,魚の識別比を最大化する2次分類手法を提案する。
数値シミュレーションにより,提案した分類器は,合成データと実データの両方において古典的R-QDAよりも優れるだけでなく,計算量の削減も要求されることがわかった。
論文 参考訳(メタデータ) (2020-06-25T12:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。