Fugu-MT 論文翻訳(概要): MargCTGAN: A "Marginally'' Better CTGAN for the Low Sample Regime

論文の概要: MargCTGAN: A "Marginally'' Better CTGAN for the Low Sample Regime

arxiv url: http://arxiv.org/abs/2307.07997v1
Date: Sun, 16 Jul 2023 10:28:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-18 16:23:32.102774
Title: MargCTGAN: A "Marginally'' Better CTGAN for the Low Sample Regime
Title（参考訳）: margctgan: 低サンプルレジームのための"マージナリー"なctgan
Authors: Tejumade Afonja, Dingfan Chen, Mario Fritz
Abstract要約: MargCTGANは、非相関な辺縁部の特徴マッチングを追加し、結果として、下流ユーティリティと合成データの統計的性質が一貫した改善をもたらす。
参考スコア（独自算出の注目度）: 63.851085173614
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The potential of realistic and useful synthetic data is significant. However, current evaluation methods for synthetic tabular data generation predominantly focus on downstream task usefulness, often neglecting the importance of statistical properties. This oversight becomes particularly prominent in low sample scenarios, accompanied by a swift deterioration of these statistical measures. In this paper, we address this issue by conducting an evaluation of three state-of-the-art synthetic tabular data generators based on their marginal distribution, column-pair correlation, joint distribution and downstream task utility performance across high to low sample regimes. The popular CTGAN model shows strong utility, but underperforms in low sample settings in terms of utility. To overcome this limitation, we propose MargCTGAN that adds feature matching of de-correlated marginals, which results in a consistent improvement in downstream utility as well as statistical properties of the synthetic data.
Abstract（参考訳）: 現実的で有用な合成データのポテンシャルは重要である。しかし,近年の表データ生成における評価手法は主に下流課題の有用性に焦点をあてており,統計特性の重要性を無視することが多い。この監視は、これらの統計的尺度の急激な劣化を伴う低いサンプルシナリオにおいて特に顕著になる。本稿では,その限界分布,列対相関,連系分布,下流タスクユーティリティ性能に基づく3つの最先端合成表データ生成装置の評価を行い,この問題に対処する。一般的なCTGANモデルは、有効性は高いが、有効性は低いサンプル設定では不十分である。この制限を克服するために,非相関境界の特徴マッチングを追加するMargCTGANを提案する。

関連論文リスト

In-Context Bias Propagation in LLM-Based Tabular Data Generation [2.182762698614784]
文脈内バイアスが緩やかであっても、大域的な統計的歪みにつながることを示す。悪意のあるコントリビュータが、合成データセットにバイアスを注入する逆シナリオを導入する。以上の結果から,LSMに基づくデータ生成パイプラインに関連する新たな脆弱性が示唆された。
論文参考訳（メタデータ） (2025-06-11T11:39:29Z)
Model-agnostic Mitigation Strategies of Data Imbalance for Regression [0.0]
データ不均衡は、回帰タスクにおいて広範囲にわたる課題として持続し、モデルパフォーマンスのバイアスを導入し、予測信頼性を損なう。既存のサンプリング手法を構築・改善する高度な緩和手法を提案する。モデルのアンサンブル(不均衡緩和で訓練されたモデルと、非バランスで訓練されたモデル)の構築は、これらの負の効果を著しく減少させることを実証する。
論文参考訳（メタデータ） (2025-06-02T09:46:08Z)
TarDiff: Target-Oriented Diffusion Guidance for Synthetic Electronic Health Record Time Series Generation [26.116599951658454]
時系列生成は臨床機械学習モデルの進歩に不可欠である。観測データのみに対する忠実性は、モデル性能の向上を保証するものではない、と我々は主張する。タスク固有のインフルエンスガイダンスを統合した,新たなターゲット指向拡散フレームワークであるTarDiffを提案する。
論文参考訳（メタデータ） (2025-04-24T14:36:10Z)
Conditional Data Synthesis Augmentation [4.3108820946281945]
Conditional Data Synthesis Augmentation (CoDSA)は、マルチモーダルドメイン間のモデルパフォーマンスを改善するために高忠実度データを合成する新しいフレームワークである。合成データの現実性を高め,スパース領域の試料密度を高めるために,CoDSAファインチューン事前学習生成モデルを構築した。本稿では,合成サンプル量と対象領域割り当ての関数として,CoDSAが実現した統計的精度向上を定量化する理論的枠組みを提案する。
論文参考訳（メタデータ） (2025-04-10T03:38:11Z)
Debiasing Synthetic Data Generated by Deep Generative Models [40.165159490379146]
合成データ生成のための深部生成モデル(DGM)は、合成データ解析においてバイアスと不正確性を誘導する。本稿では,DGMが生成する合成データを,特定のデータ解析のためにターゲットとする新たな戦略を提案する。提案手法は, 偏差を考慮し, 収束率を向上し, 容易に近似された大きなサンプル分散を持つ推定器の計算を容易にする。
論文参考訳（メタデータ） (2024-11-06T19:24:34Z)
Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文参考訳（メタデータ） (2024-06-18T08:38:59Z)
Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文参考訳（メタデータ） (2024-05-28T20:43:53Z)
A Correlation- and Mean-Aware Loss Function and Benchmarking Framework to Improve GAN-based Tabular Data Synthesis [2.2451409468083114]
本稿では,GAN(Generative Adversarial Network)のための新しい相関と平均認識損失関数を提案する。提案した損失関数は、真のデータ分布をキャプチャする既存の手法よりも統計的に有意な改善を示す。ベンチマークフレームワークは、強化された合成データ品質により、下流の機械学習タスクのパフォーマンスが向上することを示している。
論文参考訳（メタデータ） (2024-05-27T09:08:08Z)
Semi-Supervised U-statistics [22.696630428733204]
ラベルなしデータの豊富さによって強化された半教師付きU統計を導入する。提案手法は古典的U統計よりも顕著な効率向上を示すことを示す。我々は,すべての先進国において古典的U統計よりも優れた改良されたアプローチを提案する。
論文参考訳（メタデータ） (2024-02-29T07:29:27Z)
Learning with Imbalanced Noisy Data by Preventing Bias in Sample Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2024-02-17T10:34:53Z)
The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文参考訳（メタデータ） (2023-12-13T02:04:41Z)
Fair Wasserstein Coresets [12.677866300850926]
フェアな合成代表サンプルを生成する新しいコアセットであるフェア・ワッサースタイン・コアセット(FWC)を提示する。 FWCは、元のデータセットと重み付けされた合成サンプルの間のワッサースタイン距離を最小化するために効率的な多数決最小化アルゴリズムを使用している。我々は、FWCの制約のないバージョンが、k-メディアンやk-平均クラスタリングのためのロイドのアルゴリズムと等価であることを示す。
論文参考訳（メタデータ） (2023-11-09T15:21:56Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文参考訳（メタデータ） (2022-03-03T05:58:49Z)
The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文参考訳（メタデータ） (2021-08-25T22:01:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。