論文の概要: Comprehensive Exploration of Synthetic Data Generation: A Survey
- arxiv url: http://arxiv.org/abs/2401.02524v2
- Date: Thu, 1 Feb 2024 22:06:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 18:51:53.034712
- Title: Comprehensive Exploration of Synthetic Data Generation: A Survey
- Title(参考訳): 総合的な合成データ生成の探索:サーベイ
- Authors: Andr\'e Bauer, Simon Trapp, Michael Stenger, Robert Leppich, Samuel
Kounev, Mark Leznik, Kyle Chard, Ian Foster
- Abstract要約: この研究は、過去10年間で417のSynthetic Data Generationモデルを調査します。
その結果、ニューラルネットワークベースのアプローチが普及し、モデルのパフォーマンスと複雑性が向上したことが明らかになった。
コンピュータビジョンが支配的であり、GANが主要な生成モデルであり、拡散モデル、トランスフォーマー、RNNが競合する。
- 参考スコア(独自算出の注目度): 4.485401662312072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed a surge in the popularity of Machine Learning
(ML), applied across diverse domains. However, progress is impeded by the
scarcity of training data due to expensive acquisition and privacy legislation.
Synthetic data emerges as a solution, but the abundance of released models and
limited overview literature pose challenges for decision-making. This work
surveys 417 Synthetic Data Generation (SDG) models over the last decade,
providing a comprehensive overview of model types, functionality, and
improvements. Common attributes are identified, leading to a classification and
trend analysis. The findings reveal increased model performance and complexity,
with neural network-based approaches prevailing, except for privacy-preserving
data generation. Computer vision dominates, with GANs as primary generative
models, while diffusion models, transformers, and RNNs compete. Implications
from our performance evaluation highlight the scarcity of common metrics and
datasets, making comparisons challenging. Additionally, the neglect of training
and computational costs in literature necessitates attention in future
research. This work serves as a guide for SDG model selection and identifies
crucial areas for future exploration.
- Abstract(参考訳): 近年、機械学習(ML)の人気が高まっており、さまざまな領域にまたがって適用されている。
しかし、高価な買収とプライバシー法によって、トレーニングデータの不足が進行を妨げている。
合成データは解決策として現れるが、リリースされたモデルと限られた概要文献が、意思決定に挑戦する。
この研究は、過去10年間に417のSynthetic Data Generation(SDG)モデルを調査し、モデルタイプ、機能、改善に関する包括的な概要を提供する。
一般的な属性は識別され、分類とトレンド分析につながる。
この結果は、プライバシ保存データ生成を除いて、ニューラルネットワークベースのアプローチが普及するにつれて、モデルのパフォーマンスと複雑性が向上することを示している。
コンピュータビジョンが支配的であり、GANが主要な生成モデルであり、拡散モデル、トランスフォーマー、RNNが競合する。
パフォーマンス評価による影響は、一般的なメトリクスとデータセットの不足を強調し、比較を困難にしています。
さらに、文学におけるトレーニングや計算コストの無視は、将来の研究に注意を必要とする。
この研究はSDGモデル選択のガイドとして機能し、将来の探査にとって重要な領域を特定する。
関連論文リスト
- Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。
それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-03-13T16:05:18Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Downstream Task-Oriented Generative Model Selections on Synthetic Data
Training for Fraud Detection Models [9.754400681589845]
本稿では,学習不正検出モデルにおける下流タスク指向生成モデル選択問題にアプローチする。
本研究は,ニューラルネットワーク(NN)とベイジアンネットワーク(BN)をベースとした生成モデルの両方が,ゆるやかなモデル解釈可能性制約下での合成トレーニングタスクの完了に適しているが,BNベースの生成モデルは,厳密なモデル解釈可能性制約下での合成トレーニング不正検出モデルにおいて,NNベースより優れていることを裏付けるものである。
論文 参考訳(メタデータ) (2024-01-01T23:33:56Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model
Perspective [67.25782152459851]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - On the Stability of Iterative Retraining of Generative Models on their
own Data [56.153542044045224]
生成モデルの訓練がデータセット(実データと合成データの混合データ)の安定性に及ぼす影響について検討した。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は,CIFAR10およびFFHQ上の正規化フローと最先端拡散モデルの反復的訓練により,合成画像と自然画像の両方に関する理論を実証的に検証した。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Enhancing Visual Perception in Novel Environments via Incremental Data
Augmentation Based on Style Transfer [2.516855334706386]
未知の未知"は、現実のシナリオにおける自律的なエージェントデプロイメントに挑戦する。
提案手法は,変分プロトタイピング(VPE)を利用して,新規入力を積極的に識別し,処理することで視覚知覚を向上させる。
本研究は,ドメイン固有の拡張戦略に生成モデルを組み込むことの潜在的な利点を示唆する。
論文 参考訳(メタデータ) (2023-09-16T03:06:31Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。