論文の概要: Machine Learning for Synthetic Data Generation: a Review
- arxiv url: http://arxiv.org/abs/2302.04062v1
- Date: Wed, 8 Feb 2023 13:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 16:21:31.240035
- Title: Machine Learning for Synthetic Data Generation: a Review
- Title(参考訳): 合成データ生成のための機械学習: レビュー
- Authors: Yingzhou Lu, Huazheng Wang, Wenqi Wei
- Abstract要約: 本稿では、合成データ生成に機械学習モデルを利用した既存の研究を体系的にレビューする。
具体的には、コンピュータビジョン、音声、自然言語、医療、ビジネスなど、さまざまな観点からの合成データ生成について論じる。
我々は、この新興分野における課題と機会を特定し、今後の研究方向性を提案する。
- 参考スコア(独自算出の注目度): 8.117165388005498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data plays a crucial role in machine learning. However, in real-world
applications, there are several problems with data, e.g., data are of low
quality; a limited number of data points lead to under-fitting of the machine
learning model; it is hard to access the data due to privacy, safety and
regulatory concerns. \textit{Synthetic data generation} offers a promising new
avenue, as it can be shared and used in ways that real-world data cannot. This
paper systematically reviews the existing works that leverage machine learning
models for synthetic data generation. Specifically, we discuss the synthetic
data generation works from several perspectives: (i) applications, including
computer vision, speech, natural language, healthcare, and business; (ii)
machine learning methods, particularly neural network architectures and deep
generative models; (iii) privacy and fairness issue. In addition, we identify
the challenges and opportunities in this emerging field and suggest future
research directions.
- Abstract(参考訳): データは機械学習において重要な役割を果たす。
しかし、現実世界のアプリケーションでは、データの品質が低い、限られた数のデータポイントが機械学習モデルの過度な適合に繋がる、プライバシー、安全性、規制上の懸念によるデータへのアクセスが困難など、データにはいくつかの問題がある。
\textit{Synthetic data generation}は、現実世界のデータではできない方法で共有し、使用することができる、有望な新しい道を提供する。
本稿では、合成データ生成に機械学習モデルを利用する既存の作品を体系的にレビューする。
具体的には,様々な視点から合成データ生成手法について考察する。
(i) コンピュータビジョン、音声、自然言語、医療及び事業を含む出願
(二 機械学習方法、特にニューラルネットワークアーキテクチャ及び深層生成モデル
(三)プライバシーと公平性の問題
さらに、この新興分野における課題と機会を特定し、今後の研究方向性を提案する。
関連論文リスト
- Synthetic Data in AI: Challenges, Applications, and Ethical Implications [16.01404243695338]
本稿では,合成データの多面的側面について考察する。
これらのデータセットが持つ可能性のある課題と潜在的なバイアスを強調します。
また、合成データセットに関連する倫理的考察と法的意味についても批判的に論じている。
論文 参考訳(メタデータ) (2024-01-03T09:03:30Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Deep Generative Models, Synthetic Tabular Data, and Differential
Privacy: An Overview and Synthesis [2.8391355909797644]
本稿では, 深層生成モデルによる合成データ生成の最近の進展を包括的に分析する。
具体的には、プライバシーに敏感なデータにおける合成データ生成の重要性について概説する。
論文 参考訳(メタデータ) (2023-07-28T09:17:03Z) - Privacy-Preserving Graph Machine Learning from Data to Computation: A
Survey [67.7834898542701]
我々は,グラフ機械学習のプライバシ保護手法の見直しに重点を置いている。
まずプライバシ保護グラフデータを生成する方法を検討する。
次に,プライバシ保護情報を送信する方法について述べる。
論文 参考訳(メタデータ) (2023-07-10T04:30:23Z) - Synthetic Demographic Data Generation for Card Fraud Detection Using
GANs [4.651915393462367]
我々は、人口統計データ生成に使用されるDGGANと呼ばれるディープラーニングジェネレーティブ・アドバイサル・ネットワーク(GAN)を構築している。
本モデルでは,モデルトレーニング中にサンプルを生成し,クラス不均衡問題を克服することの重要性を見出した。
論文 参考訳(メタデータ) (2023-06-29T17:08:57Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time
Series [79.64785804590821]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。