論文の概要: MargCTGAN: A "Marginally'' Better CTGAN for the Low Sample Regime
- arxiv url: http://arxiv.org/abs/2307.07997v1
- Date: Sun, 16 Jul 2023 10:28:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 16:23:32.102774
- Title: MargCTGAN: A "Marginally'' Better CTGAN for the Low Sample Regime
- Title(参考訳): margctgan: 低サンプルレジームのための"マージナリー"なctgan
- Authors: Tejumade Afonja, Dingfan Chen, Mario Fritz
- Abstract要約: MargCTGANは、非相関な辺縁部の特徴マッチングを追加し、結果として、下流ユーティリティと合成データの統計的性質が一貫した改善をもたらす。
- 参考スコア(独自算出の注目度): 63.851085173614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The potential of realistic and useful synthetic data is significant. However,
current evaluation methods for synthetic tabular data generation predominantly
focus on downstream task usefulness, often neglecting the importance of
statistical properties. This oversight becomes particularly prominent in low
sample scenarios, accompanied by a swift deterioration of these statistical
measures. In this paper, we address this issue by conducting an evaluation of
three state-of-the-art synthetic tabular data generators based on their
marginal distribution, column-pair correlation, joint distribution and
downstream task utility performance across high to low sample regimes. The
popular CTGAN model shows strong utility, but underperforms in low sample
settings in terms of utility. To overcome this limitation, we propose MargCTGAN
that adds feature matching of de-correlated marginals, which results in a
consistent improvement in downstream utility as well as statistical properties
of the synthetic data.
- Abstract(参考訳): 現実的で有用な合成データのポテンシャルは重要である。
しかし,近年の表データ生成における評価手法は主に下流課題の有用性に焦点をあてており,統計特性の重要性を無視することが多い。
この監視は、これらの統計的尺度の急激な劣化を伴う低いサンプルシナリオにおいて特に顕著になる。
本稿では,その限界分布,列対相関,連系分布,下流タスクユーティリティ性能に基づく3つの最先端合成表データ生成装置の評価を行い,この問題に対処する。
一般的なCTGANモデルは、有効性は高いが、有効性は低いサンプル設定では不十分である。
この制限を克服するために,非相関境界の特徴マッチングを追加するMargCTGANを提案する。
関連論文リスト
- Semi-Supervised U-statistics [22.696630428733204]
ラベルなしデータの豊富さによって強化された半教師付きU統計を導入する。
提案手法は古典的U統計よりも顕著な効率向上を示すことを示す。
我々は,すべての先進国において古典的U統計よりも優れた改良されたアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-29T07:29:27Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Fair Coresets via Optimal Transport [12.501454853876556]
サンプルレベルの重みとともに,適切な合成代表サンプルを生成する新しいコアセット手法を提案する。
我々は、FWCの制約のないバージョンが、k-メディアンやk-平均クラスタリングのためのロイドのアルゴリズムと等価であることを示す。
合成データセットと実データセットの両方で実施された実験により、FWCは下流モデルにおける競合フェアネス・パフォーマンスのトレードオフを達成することが示された。
論文 参考訳(メタデータ) (2023-11-09T15:21:56Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation
using Generative Models [74.43215520371506]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Distributionally Robust Local Non-parametric Conditional Estimation [22.423052432220235]
非パラメトリックな局所推定を生成する分布安定な新しい推定器を提案する。
一般には難解であるにもかかわらず、局所推定器は凸最適化によって効率的に見つけることができることを示す。
合成およびMNISTデータセットを用いた実験は、この新しいクラスの推定器の競合性能を示している。
論文 参考訳(メタデータ) (2020-10-12T00:11:17Z) - Weakly Supervised-Based Oversampling for High Imbalance and High
Dimensionality Data Classification [2.9283685972609494]
オーバーサンプリングは、不均衡な分類を解決する効果的な方法である。
合成サンプルの不正確なラベルは、データセットの分布を歪ませる。
本稿では,合成試料の不正確なラベル付けを扱うために,弱教師付き学習を導入する。
論文 参考訳(メタデータ) (2020-09-29T15:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。