論文の概要: MargCTGAN: A "Marginally'' Better CTGAN for the Low Sample Regime
- arxiv url: http://arxiv.org/abs/2307.07997v1
- Date: Sun, 16 Jul 2023 10:28:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 16:23:32.102774
- Title: MargCTGAN: A "Marginally'' Better CTGAN for the Low Sample Regime
- Title(参考訳): margctgan: 低サンプルレジームのための"マージナリー"なctgan
- Authors: Tejumade Afonja, Dingfan Chen, Mario Fritz
- Abstract要約: MargCTGANは、非相関な辺縁部の特徴マッチングを追加し、結果として、下流ユーティリティと合成データの統計的性質が一貫した改善をもたらす。
- 参考スコア(独自算出の注目度): 63.851085173614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The potential of realistic and useful synthetic data is significant. However,
current evaluation methods for synthetic tabular data generation predominantly
focus on downstream task usefulness, often neglecting the importance of
statistical properties. This oversight becomes particularly prominent in low
sample scenarios, accompanied by a swift deterioration of these statistical
measures. In this paper, we address this issue by conducting an evaluation of
three state-of-the-art synthetic tabular data generators based on their
marginal distribution, column-pair correlation, joint distribution and
downstream task utility performance across high to low sample regimes. The
popular CTGAN model shows strong utility, but underperforms in low sample
settings in terms of utility. To overcome this limitation, we propose MargCTGAN
that adds feature matching of de-correlated marginals, which results in a
consistent improvement in downstream utility as well as statistical properties
of the synthetic data.
- Abstract(参考訳): 現実的で有用な合成データのポテンシャルは重要である。
しかし,近年の表データ生成における評価手法は主に下流課題の有用性に焦点をあてており,統計特性の重要性を無視することが多い。
この監視は、これらの統計的尺度の急激な劣化を伴う低いサンプルシナリオにおいて特に顕著になる。
本稿では,その限界分布,列対相関,連系分布,下流タスクユーティリティ性能に基づく3つの最先端合成表データ生成装置の評価を行い,この問題に対処する。
一般的なCTGANモデルは、有効性は高いが、有効性は低いサンプル設定では不十分である。
この制限を克服するために,非相関境界の特徴マッチングを追加するMargCTGANを提案する。
関連論文リスト
- Debiasing Synthetic Data Generated by Deep Generative Models [40.165159490379146]
合成データ生成のための深部生成モデル(DGM)は、合成データ解析においてバイアスと不正確性を誘導する。
本稿では,DGMが生成する合成データを,特定のデータ解析のためにターゲットとする新たな戦略を提案する。
提案手法は, 偏差を考慮し, 収束率を向上し, 容易に近似された大きなサンプル分散を持つ推定器の計算を容易にする。
論文 参考訳(メタデータ) (2024-11-06T19:24:34Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - A Correlation- and Mean-Aware Loss Function and Benchmarking Framework to Improve GAN-based Tabular Data Synthesis [2.2451409468083114]
本稿では,GAN(Generative Adversarial Network)のための新しい相関と平均認識損失関数を提案する。
提案した損失関数は、真のデータ分布をキャプチャする既存の手法よりも統計的に有意な改善を示す。
ベンチマークフレームワークは、強化された合成データ品質により、下流の機械学習タスクのパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (2024-05-27T09:08:08Z) - Semi-Supervised U-statistics [22.696630428733204]
ラベルなしデータの豊富さによって強化された半教師付きU統計を導入する。
提案手法は古典的U統計よりも顕著な効率向上を示すことを示す。
我々は,すべての先進国において古典的U統計よりも優れた改良されたアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-29T07:29:27Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。
以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文 参考訳(メタデータ) (2023-12-13T02:04:41Z) - Fair Wasserstein Coresets [12.677866300850926]
フェアな合成代表サンプルを生成する新しいコアセットであるフェア・ワッサースタイン・コアセット(FWC)を提示する。
FWCは、元のデータセットと重み付けされた合成サンプルの間のワッサースタイン距離を最小化するために効率的な多数決最小化アルゴリズムを使用している。
我々は、FWCの制約のないバージョンが、k-メディアンやk-平均クラスタリングのためのロイドのアルゴリズムと等価であることを示す。
論文 参考訳(メタデータ) (2023-11-09T15:21:56Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。