論文の概要: HydraGAN A Multi-head, Multi-objective Approach to Synthetic Data
Generation
- arxiv url: http://arxiv.org/abs/2111.07015v1
- Date: Sat, 13 Nov 2021 02:19:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 12:58:18.357078
- Title: HydraGAN A Multi-head, Multi-objective Approach to Synthetic Data
Generation
- Title(参考訳): hydragan 合成データ生成のための多元的多目的アプローチ
- Authors: Chance N DeSmet, Diane J Cook
- Abstract要約: 我々はHydraGANを導入する。HydraGANは、複数のジェネレータと識別エージェントをシステムに導入する合成データ生成の新しいアプローチである。
我々は,HydraGANがデータリアリズムの最大化,モデル精度の最大化,再識別リスクの最小化という複数の基準で,3つのデータセットのベースライン手法よりも優れていることを観察した。
- 参考スコア(独自算出の注目度): 8.260059020010454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data generation overcomes limitations of real-world machine
learning. Traditional methods are valuable for augmenting costly datasets but
only optimize one criterion: realism. In this paper, we tackle the problem of
generating synthetic data that optimize multiple criteria. This goal is
necessary when real data are replaced by synthetic for privacy preservation. We
introduce HydraGAN, a new approach to synthetic data generation that introduces
multiple generator and discriminator agents into the system. The multi-agent
GAN optimizes the goal of privacy-preservation as well as data realism. To
facilitate multi-agent training, we adapt game-theoretic principles to offer
equilibrium guarantees. We observe that HydraGAN outperforms baseline methods
for three datasets for multiple criteria of maximizing data realism, maximizing
model accuracy, and minimizing re-identification risk.
- Abstract(参考訳): 合成データ生成は、現実世界の機械学習の限界を克服する。
従来の手法は高価なデータセットを増やすのに有用だが、一つの基準であるリアリズムを最適化するだけだ。
本稿では,複数の基準を最適化する合成データを生成する問題に取り組む。
この目標は、実際のデータがプライバシー保護のために合成データに置き換えられるときに必要である。
本稿では,複数の生成器と識別器エージェントをシステムに導入する合成データ生成の新しいアプローチであるhydraganを紹介する。
マルチエージェントGANは、プライバシ保護とデータリアリズムの目標を最適化する。
マルチエージェントトレーニングを容易にするために,ゲーム理論の原則を適用して平衡保証を行う。
我々は,HydraGANがデータリアリズムの最大化,モデル精度の最大化,再識別リスクの最小化という複数の基準で,3つのデータセットのベースライン手法よりも優れていることを観察した。
関連論文リスト
- Multi-Resolution Diffusion for Privacy-Sensitive Recommender Systems [3.072340427031969]
Score-based Diffusion Recommendation Module (SDRM)を導入し、高精度なレコメンデータシステムのトレーニングに必要な実世界のデータセットの複雑なパターンをキャプチャする。
SDRMは、ユーザのプライバシを保護するために既存のデータセットを置き換える合成データを生成することができる。
提案手法は,NDCG@$k平均4.30%,NDCG@$k平均4.65%の改善により,生成逆数ネットワーク,変分オートエンコーダなどの競合するベースラインを上回り,様々なデータセットを合成・拡張する拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-11-06T19:52:55Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time
Series [79.64785804590821]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Enabling Synthetic Data adoption in regulated domains [1.9512796489908306]
Model-CentricからData-Centricへの転換は、アルゴリズムよりもデータとその品質に重点を置いている。
特に、高度に規制されたシナリオにおける情報のセンシティブな性質を考慮する必要がある。
このようなコンウンドラムをバイパスする巧妙な方法は、生成プロセスから得られたデータであるSynthetic Dataに依存し、実際のデータプロパティを学習する。
論文 参考訳(メタデータ) (2022-04-13T10:53:54Z) - Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited
Data [125.7135706352493]
GAN(Generative Adversarial Network)は、高忠実度画像を合成するために、訓練に十分なデータを必要とする。
近年の研究では、差別者の過度な適合により、限られたデータでGANを訓練することは困難であることが示されている。
本稿では,APA (Adaptive Pseudo Augmentation) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T18:13:45Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - SYNC: A Copula based Framework for Generating Synthetic Data from
Aggregated Sources [8.350531869939351]
ダウンスケーリングと呼ばれる合成データ生成タスクについて検討する。
我々はSynC (Synthetic Data Generation via Gaussian Copula) と呼ばれる多段階フレームワークを提案する。
私たちはこの仕事に4つの重要な貢献をしています。
論文 参考訳(メタデータ) (2020-09-20T16:36:25Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z) - Synthesizing Property & Casualty Ratemaking Datasets using Generative
Adversarial Networks [2.2649197740853677]
秘密のオリジナルデータセットから合成保険データセットを構築することができるGAN(Generative Adversarial Network)の3種類の設計方法を示す。
透明性のために、これらのアプローチは、公開データセット、フランスのモーターサードパーティの負債データを使って説明されている。
MC-WGAN-GPは最良のデータを合成し、CTGANは最も使いやすく、MNCDP-GANは差分プライバシーを保証する。
論文 参考訳(メタデータ) (2020-08-13T21:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。