論文の概要: Synthetic data, real errors: how (not) to publish and use synthetic data
- arxiv url: http://arxiv.org/abs/2305.09235v2
- Date: Sat, 8 Jul 2023 09:15:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 22:07:58.494392
- Title: Synthetic data, real errors: how (not) to publish and use synthetic data
- Title(参考訳): 合成データ、実際のエラー:どのようにして合成データをパブリッシュして使うか
- Authors: Boris van Breugel, Zhaozhi Qian, Mihaela van der Schaar
- Abstract要約: 生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
- 参考スコア(独自算出の注目度): 86.65594304109567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating synthetic data through generative models is gaining interest in
the ML community and beyond, promising a future where datasets can be tailored
to individual needs. Unfortunately, synthetic data is usually not perfect,
resulting in potential errors in downstream tasks. In this work we explore how
the generative process affects the downstream ML task. We show that the naive
synthetic data approach -- using synthetic data as if it is real -- leads to
downstream models and analyses that do not generalize well to real data. As a
first step towards better ML in the synthetic data regime, we introduce Deep
Generative Ensemble (DGE) -- a framework inspired by Deep Ensembles that aims
to implicitly approximate the posterior distribution over the generative
process model parameters. DGE improves downstream model training, evaluation,
and uncertainty quantification, vastly outperforming the naive approach on
average. The largest improvements are achieved for minority classes and
low-density regions of the original data, for which the generative uncertainty
is largest.
- Abstract(参考訳): 生成モデルによる合成データの生成は、MLコミュニティやそれ以上の関心を集めており、データセットを個々のニーズに合わせてカスタマイズできる未来を約束している。
残念なことに、合成データは通常完璧ではないため、下流のタスクで潜在的なエラーが発生する。
本研究では、生成プロセスが下流MLタスクにどのように影響するかを検討する。
ナイーブな合成データアプローチ -- 合成データが本物であるかのように使用する -- は、実データにうまく一般化しない下流モデルと分析に繋がることを示している。
合成データシステムにおけるmlの改善に向けた第一歩として、深層生成アンサンブル(dge)を紹介します。これは、生成過程モデルのパラメーターに対する後方分布を暗黙的に近似することを目的とした、深層アンサンブルに触発されたフレームワークです。
dgeは下流モデルのトレーニング、評価、不確実性定量化を改善し、平均的なナイーブアプローチを大きく上回っている。
最も大きな改善は、原データのマイノリティクラスと低密度領域において達成され、生成的不確実性が最も大きい。
関連論文リスト
- Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - On the Stability of Iterative Retraining of Generative Models on their
own Data [56.153542044045224]
生成モデルの訓練がデータセット(実データと合成データの混合データ)の安定性に及ぼす影響について検討した。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は,CIFAR10およびFFHQ上の正規化フローと最先端拡散モデルの反復的訓練により,合成画像と自然画像の両方に関する理論を実証的に検証した。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Regularizing Neural Networks with Meta-Learning Generative Models [40.45689466486025]
メタ生成正則化(Meta Generative regularization, MGR)と呼ばれる新しい生成データ拡張戦略を提案する。
MGRは、例えばクロスエントロピーのような損失関数の代わりに、特徴抽出器の正則化項で合成サンプルを利用する。
6つのデータセットの実験では、MGRは特にデータセットが小さく、安定してベースラインを上回っている場合に有効であることが示された。
論文 参考訳(メタデータ) (2023-07-26T01:47:49Z) - A Kernelised Stein Statistic for Assessing Implicit Generative Models [10.616967871198689]
本稿では,合成データ生成装置の品質を評価するための基本手法を提案する。
合成データ生成装置からのサンプルサイズは所望の大きさで、生成装置がエミュレートすることを目的とした観測データのサイズは固定される。
論文 参考訳(メタデータ) (2022-05-31T23:40:21Z) - Hybrid Deep Learning Model using SPCAGAN Augmentation for Insider Threat
Analysis [7.576808824987132]
ディープラーニングを用いた異常検出には包括的データが必要であるが、機密性に関する懸念からインサイダー脅威データは利用できない。
本研究では,不均一なデータソースから入力を受ける線形多様体学習に基づく生成逆ネットワークSPCAGANを提案する。
提案手法は誤差が低く,精度が高く,従来のモデルよりもはるかに優れた合成インサイダー脅威データを生成する。
論文 参考訳(メタデータ) (2022-03-06T02:08:48Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Copula Flows for Synthetic Data Generation [0.5801044612920815]
確率モデルを合成データ生成器として用いることを提案する。
密度推定の手法として,シミュレーションと実データの両方をベンチマークした。
論文 参考訳(メタデータ) (2021-01-03T10:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。