Fugu-MT 論文翻訳(概要): HydraGAN A Multi-head, Multi-objective Approach to Synthetic Data Generation

論文の概要: HydraGAN A Multi-head, Multi-objective Approach to Synthetic Data Generation

arxiv url: http://arxiv.org/abs/2111.07015v1
Date: Sat, 13 Nov 2021 02:19:11 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-18 12:58:18.357078
Title: HydraGAN A Multi-head, Multi-objective Approach to Synthetic Data Generation
Title（参考訳）: hydragan 合成データ生成のための多元的多目的アプローチ
Authors: Chance N DeSmet, Diane J Cook
Abstract要約: 我々はHydraGANを導入する。HydraGANは、複数のジェネレータと識別エージェントをシステムに導入する合成データ生成の新しいアプローチである。我々は,HydraGANがデータリアリズムの最大化,モデル精度の最大化,再識別リスクの最小化という複数の基準で,3つのデータセットのベースライン手法よりも優れていることを観察した。
参考スコア（独自算出の注目度）: 8.260059020010454
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Synthetic data generation overcomes limitations of real-world machine learning. Traditional methods are valuable for augmenting costly datasets but only optimize one criterion: realism. In this paper, we tackle the problem of generating synthetic data that optimize multiple criteria. This goal is necessary when real data are replaced by synthetic for privacy preservation. We introduce HydraGAN, a new approach to synthetic data generation that introduces multiple generator and discriminator agents into the system. The multi-agent GAN optimizes the goal of privacy-preservation as well as data realism. To facilitate multi-agent training, we adapt game-theoretic principles to offer equilibrium guarantees. We observe that HydraGAN outperforms baseline methods for three datasets for multiple criteria of maximizing data realism, maximizing model accuracy, and minimizing re-identification risk.
Abstract（参考訳）: 合成データ生成は、現実世界の機械学習の限界を克服する。従来の手法は高価なデータセットを増やすのに有用だが、一つの基準であるリアリズムを最適化するだけだ。本稿では,複数の基準を最適化する合成データを生成する問題に取り組む。この目標は、実際のデータがプライバシー保護のために合成データに置き換えられるときに必要である。本稿では,複数の生成器と識別器エージェントをシステムに導入する合成データ生成の新しいアプローチであるhydraganを紹介する。マルチエージェントGANは、プライバシ保護とデータリアリズムの目標を最適化する。マルチエージェントトレーニングを容易にするために,ゲーム理論の原則を適用して平衡保証を行う。我々は,HydraGANがデータリアリズムの最大化,モデル精度の最大化,再識別リスクの最小化という複数の基準で,3つのデータセットのベースライン手法よりも優れていることを観察した。

関連論文リスト

Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference [89.5628648718851]
因果推論は医療介入の開発と評価に不可欠である。現実の医療データセットは、規制障壁のためアクセスが難しいことが多い。本稿では,医学における治療効果分析のための新しい合成データ生成法STEAMを提案する。
論文参考訳（メタデータ） (2025-10-21T16:16:00Z)
Private Training & Data Generation by Clustering Embeddings [74.00687214400021]
差分プライバシー(DP)は、個々のデータを保護するための堅牢なフレームワークを提供する。本稿では,DP合成画像埋め込み生成のための新しい原理的手法を提案する。経験的に、合成的に生成された埋め込みに基づいて訓練された単純な2層ニューラルネットワークは、最先端(SOTA)分類の精度を達成する。
論文参考訳（メタデータ） (2025-06-20T00:17:14Z)
Synthline: A Product Line Approach for Synthetic Requirements Engineering Data Generation using Large Language Models [0.5156484100374059]
本稿では,大規模言語モデルを用いて合成要求工学(RE)データを生成する製品ライン(PL)アプローチであるSynthlineを紹介する。我々の分析によると、合成データセットは実際のデータよりも多様性が低いが、実行可能なトレーニングリソースとして機能するには十分である。以上の結果から, 合成データと実データを組み合わせることで, 大幅な性能向上が期待できる。
論文参考訳（メタデータ） (2025-05-06T07:57:16Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
Opinion: Revisiting synthetic data classifications from a privacy perspective [42.12937192948916]
合成データは、AI開発の増大するデータ要求を満たすための費用対効果のソリューションとして浮上している。従来の合成データ型の分類は、合成データを生成するための絶え間なく増加する手法を反映していない。我々は、プライバシーの観点をよりよく反映した、合成データ型をグループ化する、別のアプローチを例に挙げる。
論文参考訳（メタデータ） (2025-03-05T13:54:13Z)
Automatic Prompt Optimization Techniques: Exploring the Potential for Synthetic Data Generation [0.0]
医療などの専門分野において、データ取得はプライバシー規制、倫理的配慮、可用性の制限による重大な制約に直面している。大規模プロンプトベースモデルの出現は、保護されたデータに直接アクセスすることなく、合成データ生成の新しい機会を示す。 PRISMAガイドラインに従って, 自動プロンプト最適化の最近の展開を概観する。
論文参考訳（メタデータ） (2025-02-05T11:13:03Z)
Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。 6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文参考訳（メタデータ） (2024-12-04T19:20:32Z)
Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文参考訳（メタデータ） (2024-11-04T09:51:10Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。 SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文参考訳（メタデータ） (2024-10-24T10:47:30Z)
Multi-Resolution Diffusion for Privacy-Sensitive Recommender Systems [2.812395851874055]
Score-based Diffusion Recommendation Module (SDRM)を導入し、高精度なレコメンデータシステムのトレーニングに必要な実世界のデータセットの複雑なパターンをキャプチャする。 SDRMは、ユーザのプライバシを保護するために既存のデータセットを置き換える合成データを生成することができる。提案手法は,Recall@kで平均4.30%,NDCG@kで平均4.65%向上した。
論文参考訳（メタデータ） (2023-11-06T19:52:55Z)
Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文参考訳（メタデータ） (2023-10-25T20:32:02Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
Enabling Synthetic Data adoption in regulated domains [1.9512796489908306]
Model-CentricからData-Centricへの転換は、アルゴリズムよりもデータとその品質に重点を置いている。特に、高度に規制されたシナリオにおける情報のセンシティブな性質を考慮する必要がある。このようなコンウンドラムをバイパスする巧妙な方法は、生成プロセスから得られたデータであるSynthetic Dataに依存し、実際のデータプロパティを学習する。
論文参考訳（メタデータ） (2022-04-13T10:53:54Z)
Unsupervised Domain Adaptive Learning via Synthetic Data for Person Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文参考訳（メタデータ） (2021-09-12T15:51:41Z)
SYNC: A Copula based Framework for Generating Synthetic Data from Aggregated Sources [8.350531869939351]
ダウンスケーリングと呼ばれる合成データ生成タスクについて検討する。我々はSynC (Synthetic Data Generation via Gaussian Copula) と呼ばれる多段階フレームワークを提案する。私たちはこの仕事に4つの重要な貢献をしています。
論文参考訳（メタデータ） (2020-09-20T16:36:25Z)
AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文参考訳（メタデータ） (2020-08-16T11:36:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。