Fugu-MT 論文翻訳(概要): Machine Learning for Synthetic Data Generation: a Review

論文の概要: Machine Learning for Synthetic Data Generation: a Review

arxiv url: http://arxiv.org/abs/2302.04062v1
Date: Wed, 8 Feb 2023 13:59:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-09 16:21:31.240035
Title: Machine Learning for Synthetic Data Generation: a Review
Title（参考訳）: 合成データ生成のための機械学習: レビュー
Authors: Yingzhou Lu, Huazheng Wang, Wenqi Wei
Abstract要約: 本稿では、合成データ生成に機械学習モデルを利用した既存の研究を体系的にレビューする。具体的には、コンピュータビジョン、音声、自然言語、医療、ビジネスなど、さまざまな観点からの合成データ生成について論じる。我々は、この新興分野における課題と機会を特定し、今後の研究方向性を提案する。
参考スコア（独自算出の注目度）: 8.117165388005498
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data plays a crucial role in machine learning. However, in real-world applications, there are several problems with data, e.g., data are of low quality; a limited number of data points lead to under-fitting of the machine learning model; it is hard to access the data due to privacy, safety and regulatory concerns. \textit{Synthetic data generation} offers a promising new avenue, as it can be shared and used in ways that real-world data cannot. This paper systematically reviews the existing works that leverage machine learning models for synthetic data generation. Specifically, we discuss the synthetic data generation works from several perspectives: (i) applications, including computer vision, speech, natural language, healthcare, and business; (ii) machine learning methods, particularly neural network architectures and deep generative models; (iii) privacy and fairness issue. In addition, we identify the challenges and opportunities in this emerging field and suggest future research directions.
Abstract（参考訳）: データは機械学習において重要な役割を果たす。しかし、現実世界のアプリケーションでは、データの品質が低い、限られた数のデータポイントが機械学習モデルの過度な適合に繋がる、プライバシー、安全性、規制上の懸念によるデータへのアクセスが困難など、データにはいくつかの問題がある。 \textit{Synthetic data generation}は、現実世界のデータではできない方法で共有し、使用することができる、有望な新しい道を提供する。本稿では、合成データ生成に機械学習モデルを利用する既存の作品を体系的にレビューする。具体的には,様々な視点から合成データ生成手法について考察する。 (i) コンピュータビジョン、音声、自然言語、医療及び事業を含む出願 (二機械学習方法、特にニューラルネットワークアーキテクチャ及び深層生成モデル (三)プライバシーと公平性の問題さらに、この新興分野における課題と機会を特定し、今後の研究方向性を提案する。

関連論文リスト

Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。合成データがモデル一般化をどのように改善するかを批判的に検討する。本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文参考訳（メタデータ） (2025-09-07T19:28:52Z)
Generative Models for Synthetic Data: Transforming Data Mining in the GenAI Era [49.46005489386284]
このチュートリアルでは、合成データ生成の基礎と最新の進歩を紹介する。 Atendeesは、生成的合成データを活用してデータマイニングの研究と実践を強化する、実用的な洞察を得る。
論文参考訳（メタデータ） (2025-08-27T05:04:07Z)
A Comprehensive Survey on Network Traffic Synthesis: From Statistical Models to Deep Learning [4.578307236651368]
合成ネットワークトラフィック生成は、ネットワーク領域における様々なデータ駆動アプリケーションのための有望な代替手段として登場した。これは、データ不足、プライバシーの懸念、および実際のデータに関連する純粋性制約といった重要な課題に対処しながら、現実世界の特徴を保存する合成データの作成を可能にする。この調査は、研究者や実践者の基盤資源として機能し、既存の手法、課題、および合成ネットワークトラフィック生成の機会に関する構造化された分析を提供する。
論文参考訳（メタデータ） (2025-06-23T18:08:18Z)
Synthetic Tabular Data: Methods, Attacks and Defenses [12.374541748245843]
合成データは、プライバシの懸念から解放された、機密性の高い固定サイズのデータセットを無制限に一致するデータのソースに置き換えるソリューションとして、しばしば位置づけられる。合成データ生成はこの10年で大きく進歩し、機械学習とデータ分析の進歩を生かしている。
論文参考訳（メタデータ） (2025-06-06T14:16:57Z)
An Empirical Study of Validating Synthetic Data for Text-Based Person Retrieval [51.10419281315848]
我々は,テキストベース人検索(TBPR)研究における合成データの可能性を探るため,実証的研究を行った。本稿では,自動プロンプト構築戦略を導入するクラス間画像生成パイプラインを提案する。我々は、画像のさらなる編集に生成AIモデルを応用した、クラス内画像拡張パイプラインを開発する。
論文参考訳（メタデータ） (2025-03-28T06:18:15Z)
Second FRCSyn-onGoing: Winning Solutions and Post-Challenge Analysis to Improve Face Recognition with Synthetic Data [104.30479583607918]
第2回FRCSyn-onGoingチャレンジは、CVPR 2024で開始された第2回顔認識チャレンジ(FRCSyn)に基づいている。我々は、顔認識における現在の課題を解決するために、個々のデータと実際のデータの組み合わせの両方で合成データの利用を検討することに重点を置いている。
論文参考訳（メタデータ） (2024-12-02T11:12:01Z)
Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文参考訳（メタデータ） (2024-11-04T09:51:10Z)
Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文参考訳（メタデータ） (2024-04-11T06:34:17Z)
Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文参考訳（メタデータ） (2023-10-25T20:32:02Z)
Deep Generative Models, Synthetic Tabular Data, and Differential Privacy: An Overview and Synthesis [2.8391355909797644]
本稿では, 深層生成モデルによる合成データ生成の最近の進展を包括的に分析する。具体的には、プライバシーに敏感なデータにおける合成データ生成の重要性について概説する。
論文参考訳（メタデータ） (2023-07-28T09:17:03Z)
Privacy-Preserving Graph Machine Learning from Data to Computation: A Survey [67.7834898542701]
我々は,グラフ機械学習のプライバシ保護手法の見直しに重点を置いている。まずプライバシ保護グラフデータを生成する方法を検討する。次に,プライバシ保護情報を送信する方法について述べる。
論文参考訳（メタデータ） (2023-07-10T04:30:23Z)
TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文参考訳（メタデータ） (2023-05-19T10:11:21Z)
Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文参考訳（メタデータ） (2023-04-07T16:38:40Z)
Synthetic Data: Opening the data floodgates to enable faster, more directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文参考訳（メタデータ） (2020-12-08T17:26:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。