論文の概要: HydraGAN A Multi-head, Multi-objective Approach to Synthetic Data
Generation
- arxiv url: http://arxiv.org/abs/2111.07015v1
- Date: Sat, 13 Nov 2021 02:19:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 12:58:18.357078
- Title: HydraGAN A Multi-head, Multi-objective Approach to Synthetic Data
Generation
- Title(参考訳): hydragan 合成データ生成のための多元的多目的アプローチ
- Authors: Chance N DeSmet, Diane J Cook
- Abstract要約: 我々はHydraGANを導入する。HydraGANは、複数のジェネレータと識別エージェントをシステムに導入する合成データ生成の新しいアプローチである。
我々は,HydraGANがデータリアリズムの最大化,モデル精度の最大化,再識別リスクの最小化という複数の基準で,3つのデータセットのベースライン手法よりも優れていることを観察した。
- 参考スコア(独自算出の注目度): 8.260059020010454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data generation overcomes limitations of real-world machine
learning. Traditional methods are valuable for augmenting costly datasets but
only optimize one criterion: realism. In this paper, we tackle the problem of
generating synthetic data that optimize multiple criteria. This goal is
necessary when real data are replaced by synthetic for privacy preservation. We
introduce HydraGAN, a new approach to synthetic data generation that introduces
multiple generator and discriminator agents into the system. The multi-agent
GAN optimizes the goal of privacy-preservation as well as data realism. To
facilitate multi-agent training, we adapt game-theoretic principles to offer
equilibrium guarantees. We observe that HydraGAN outperforms baseline methods
for three datasets for multiple criteria of maximizing data realism, maximizing
model accuracy, and minimizing re-identification risk.
- Abstract(参考訳): 合成データ生成は、現実世界の機械学習の限界を克服する。
従来の手法は高価なデータセットを増やすのに有用だが、一つの基準であるリアリズムを最適化するだけだ。
本稿では,複数の基準を最適化する合成データを生成する問題に取り組む。
この目標は、実際のデータがプライバシー保護のために合成データに置き換えられるときに必要である。
本稿では,複数の生成器と識別器エージェントをシステムに導入する合成データ生成の新しいアプローチであるhydraganを紹介する。
マルチエージェントGANは、プライバシ保護とデータリアリズムの目標を最適化する。
マルチエージェントトレーニングを容易にするために,ゲーム理論の原則を適用して平衡保証を行う。
我々は,HydraGANがデータリアリズムの最大化,モデル精度の最大化,再識別リスクの最小化という複数の基準で,3つのデータセットのベースライン手法よりも優れていることを観察した。
関連論文リスト
- Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Multi-Resolution Diffusion for Privacy-Sensitive Recommender Systems [2.812395851874055]
Score-based Diffusion Recommendation Module (SDRM)を導入し、高精度なレコメンデータシステムのトレーニングに必要な実世界のデータセットの複雑なパターンをキャプチャする。
SDRMは、ユーザのプライバシを保護するために既存のデータセットを置き換える合成データを生成することができる。
提案手法は,Recall@kで平均4.30%,NDCG@kで平均4.65%向上した。
論文 参考訳(メタデータ) (2023-11-06T19:52:55Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Enabling Synthetic Data adoption in regulated domains [1.9512796489908306]
Model-CentricからData-Centricへの転換は、アルゴリズムよりもデータとその品質に重点を置いている。
特に、高度に規制されたシナリオにおける情報のセンシティブな性質を考慮する必要がある。
このようなコンウンドラムをバイパスする巧妙な方法は、生成プロセスから得られたデータであるSynthetic Dataに依存し、実際のデータプロパティを学習する。
論文 参考訳(メタデータ) (2022-04-13T10:53:54Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - SYNC: A Copula based Framework for Generating Synthetic Data from
Aggregated Sources [8.350531869939351]
ダウンスケーリングと呼ばれる合成データ生成タスクについて検討する。
我々はSynC (Synthetic Data Generation via Gaussian Copula) と呼ばれる多段階フレームワークを提案する。
私たちはこの仕事に4つの重要な貢献をしています。
論文 参考訳(メタデータ) (2020-09-20T16:36:25Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。