論文の概要: CtrTab: Tabular Data Synthesis with High-Dimensional and Limited Data
- arxiv url: http://arxiv.org/abs/2503.06444v1
- Date: Sun, 09 Mar 2025 05:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:31.839481
- Title: CtrTab: Tabular Data Synthesis with High-Dimensional and Limited Data
- Title(参考訳): CtrTab:高次元・限られたデータを用いた語彙データ合成
- Authors: Zuqing Li, Jianzhong Qi, Junhao Gan,
- Abstract要約: データ次元が大きくなると、既存のモデルは縮退する傾向があり、単純な非拡散モデルよりもさらに悪いパフォーマンスを示す可能性がある。
これは、高次元空間における限られたトレーニングサンプルが、しばしば生成モデルが分布を正確に捉えることを妨げているためである。
我々は,高次元,低データシナリオにおける拡散型生成モデルの性能向上のために,CtrTabを提案する。
- 参考スコア(独自算出の注目度): 16.166752861658953
- License:
- Abstract: Diffusion-based tabular data synthesis models have yielded promising results. However, we observe that when the data dimensionality increases, existing models tend to degenerate and may perform even worse than simpler, non-diffusion-based models. This is because limited training samples in high-dimensional space often hinder generative models from capturing the distribution accurately. To address this issue, we propose CtrTab-a condition controlled diffusion model for tabular data synthesis-to improve the performance of diffusion-based generative models in high-dimensional, low-data scenarios. Through CtrTab, we inject samples with added Laplace noise as control signals to improve data diversity and show its resemblance to L2 regularization, which enhances model robustness. Experimental results across multiple datasets show that CtrTab outperforms state-of-the-art models, with performance gap in accuracy over 80% on average. Our source code will be released upon paper publication.
- Abstract(参考訳): 拡散に基づく表型データ合成モデルは有望な結果を得た。
しかし、データ次元が大きくなると、既存のモデルは縮退する傾向にあり、より単純な非拡散モデルよりもさらに悪化する可能性がある。
これは、高次元空間における限られたトレーニングサンプルが、しばしば生成モデルが分布を正確に捉えることを妨げているためである。
そこで本研究では,高次元低データシナリオにおける拡散に基づく生成モデルの性能向上を目的として,表層データ合成のための条件制御拡散モデルCtrTabを提案する。
CtrTabを通じて、データ多様性を改善し、モデルロバスト性を高めるL2正規化と類似性を示すために、Laplaceノイズを制御信号として追加したサンプルを注入する。
複数のデータセットにまたがる実験結果から、CtrTabは最先端のモデルよりも優れており、平均して80%以上の精度でパフォーマンスのギャップがあることがわかった。
ソースコードは新聞で公開される予定です。
関連論文リスト
- TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - Self-Supervision Improves Diffusion Models for Tabular Data Imputation [20.871219616589986]
本稿では,自己教師型計算拡散モデル (SimpDM for brevity) という高度な拡散モデルを提案する。
ノイズに対する感度を緩和するために、モデルを規則化し、一貫した安定な計算予測を保証する自己教師付きアライメント機構を導入する。
我々はまた、SimpDM内で慎重に設計された状態依存データ拡張戦略を導入し、限られたデータを扱う際の拡散モデルの堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-25T13:06:30Z) - Balanced Mixed-Type Tabular Data Synthesis with Diffusion Models [14.651592234678722]
現在の拡散モデルでは、トレーニングデータセットのバイアスを継承し、バイアス付き合成データを生成する傾向がある。
対象ラベルと感度属性のバランスの取れた結合分布を持つ公正な合成データを生成するために、センシティブガイダンスを組み込んだ新しいモデルを提案する。
本手法は, 得られたサンプルの品質を維持しつつ, トレーニングデータのバイアスを効果的に軽減する。
論文 参考訳(メタデータ) (2024-04-12T06:08:43Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Mixed-Type Tabular Data Synthesis with Score-based Diffusion in Latent Space [37.78498089632884]
本稿では,変分オートエンコーダ(VAE)の潜在空間内での拡散モデルを利用して,表層データを合成する手法であるTabsynを紹介する。
提案したTabsynの主な利点は,(1)単一統一空間に変換してカラム間関係を明示的に捉えることによって,データ型を広い範囲で扱えること,(2)品質:拡散モデルのその後のトレーニングを強化するために潜伏埋め込みの分布を最適化すること,(3)速度:既存の拡散モデルよりもはるかに少ないリバースステップと高速な合成速度を実現すること,である。
論文 参考訳(メタデータ) (2023-10-14T19:59:03Z) - CoDi: Co-evolving Contrastive Diffusion Models for Mixed-type Tabular
Synthesis [28.460781361829326]
2つの拡散モデルにより連続変数と離散変数を別々に(しかし互いに条件付けされている)処理することを提案する。
2つの拡散モデルは、互いに読み合うことによって、訓練中に共進化する。
実世界の11のデータセットと8のベースライン手法を用いて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-04-25T08:38:36Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。