論文の概要: Machine Learning for Synthetic Data Generation: A Review
- arxiv url: http://arxiv.org/abs/2302.04062v3
- Date: Tue, 23 May 2023 13:41:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 00:25:37.659098
- Title: Machine Learning for Synthetic Data Generation: A Review
- Title(参考訳): 合成データ生成のための機械学習: レビュー
- Authors: Yingzhou Lu, Huazheng Wang, Wenqi Wei
- Abstract要約: 本稿では、合成データ生成に機械学習モデルを利用した既存の研究を体系的にレビューする。
コンピュータビジョン,音声,自然言語,医療,ビジネスなど,さまざまな観点からの合成データ生成作業について論じる。
我々は、この新興分野における課題と機会を特定し、今後の研究方向性を提案する。
- 参考スコア(独自算出の注目度): 8.117165388005498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data plays a crucial role in machine learning. However, in real-world
applications, there are several problems with data, e.g., data are of low
quality; a limited number of data points lead to under-fitting of the machine
learning model; it is hard to access the data due to privacy, safety and
regulatory concerns. Synthetic data generation offers a promising new avenue,
as it can be shared and used in ways that real-world data cannot. This paper
systematically reviews the existing works that leverage machine learning models
for synthetic data generation. Specifically, we discuss the synthetic data
generation works from several perspectives: (i) applications, including
computer vision, speech, natural language, healthcare, and business; (ii)
machine learning methods, particularly neural network architectures and deep
generative models; (iii) privacy and fairness issue. In addition, we identify
the challenges and opportunities in this emerging field and suggest future
research directions.
- Abstract(参考訳): データは機械学習において重要な役割を果たす。
しかし、現実世界のアプリケーションでは、データの品質が低い、限られた数のデータポイントが機械学習モデルの過度な適合に繋がる、プライバシー、安全性、規制上の懸念によるデータへのアクセスが困難など、データにはいくつかの問題がある。
合成データ生成は、現実世界のデータではできない方法で共有および使用することができるため、有望な新しい道を提供する。
本稿では、合成データ生成に機械学習モデルを利用する既存の作品を体系的にレビューする。
具体的には,様々な視点から合成データ生成手法について考察する。
(i) コンピュータビジョン、音声、自然言語、医療及び事業を含む出願
(二 機械学習方法、特にニューラルネットワークアーキテクチャ及び深層生成モデル
(三)プライバシーと公平性の問題
さらに、この新興分野における課題と機会を特定し、今後の研究方向性を提案する。
関連論文リスト
- Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Deep Generative Models, Synthetic Tabular Data, and Differential
Privacy: An Overview and Synthesis [2.8391355909797644]
本稿では, 深層生成モデルによる合成データ生成の最近の進展を包括的に分析する。
具体的には、プライバシーに敏感なデータにおける合成データ生成の重要性について概説する。
論文 参考訳(メタデータ) (2023-07-28T09:17:03Z) - Privacy-Preserving Graph Machine Learning from Data to Computation: A
Survey [67.7834898542701]
我々は,グラフ機械学習のプライバシ保護手法の見直しに重点を置いている。
まずプライバシ保護グラフデータを生成する方法を検討する。
次に,プライバシ保護情報を送信する方法について述べる。
論文 参考訳(メタデータ) (2023-07-10T04:30:23Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。