論文の概要: SoK: Can Synthetic Images Replace Real Data? A Survey of Utility and Privacy of Synthetic Image Generation
- arxiv url: http://arxiv.org/abs/2506.19360v2
- Date: Thu, 26 Jun 2025 01:32:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 13:31:57.741083
- Title: SoK: Can Synthetic Images Replace Real Data? A Survey of Utility and Privacy of Synthetic Image Generation
- Title(参考訳): SoK:合成画像は実データを置き換えることができるか? : 合成画像生成の実用性とプライバシに関する調査
- Authors: Yunsung Chung, Yunbei Zhang, Nassir Marrouche, Jihun Hamm,
- Abstract要約: この研究は、PPDSの質問に答えようとしている: 合成データは、実際のデータを効果的に置き換えることができるか?
本研究は,多種多様な手法を体系的に評価することにより,合成データ生成手法の実用・プライバシトレードオフに関する実用的な知見を提供する。
- 参考スコア(独自算出の注目度): 5.2438534296318355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in generative models have transformed the field of synthetic image generation for privacy-preserving data synthesis (PPDS). However, the field lacks a comprehensive survey and comparison of synthetic image generation methods across diverse settings. In particular, when we generate synthetic images for the purpose of training a classifier, there is a pipeline of generation-sampling-classification which takes private training as input and outputs the final classifier of interest. In this survey, we systematically categorize existing image synthesis methods, privacy attacks, and mitigations along this generation-sampling-classification pipeline. To empirically compare diverse synthesis approaches, we provide a benchmark with representative generative methods and use model-agnostic membership inference attacks (MIAs) as a measure of privacy risk. Through this study, we seek to answer critical questions in PPDS: Can synthetic data effectively replace real data? Which release strategy balances utility and privacy? Do mitigations improve the utility-privacy tradeoff? Which generative models perform best across different scenarios? With a systematic evaluation of diverse methods, our study provides actionable insights into the utility-privacy tradeoffs of synthetic data generation methods and guides the decision on optimal data releasing strategies for real-world applications.
- Abstract(参考訳): 生成モデルの進歩は、プライバシ保存データ合成(PPDS)のための合成画像生成の分野に変化をもたらした。
しかし,多種多様な環境における合成画像生成手法の総合的な調査と比較は欠如している。
特に、分類器を訓練するために合成画像を生成する際には、個人訓練を入力とし、興味のある最終分類器を出力する生成サンプル分類のパイプラインが存在する。
本研究では, 既存の画像合成手法, プライバシ攻撃, 緩和策を, この世代別分類パイプラインに沿って系統的に分類する。
多様な合成手法を実証的に比較するために,代表的生成手法を用いてベンチマークを行い,プライバシリスクの尺度としてMIA(Model-Anostic Memberation Inference attack)を用いた。
この研究を通じて、我々はPPDSで重要な疑問に答えようとしている: 合成データは、実データに効果的に取って代わることができるか?
どのリリース戦略がユーティリティとプライバシのバランスをとるのか?
緩和はユーティリティとプライバシのトレードオフを改善するか?
どの生成モデルは、異なるシナリオで最もよく機能しますか?
本研究は,多種多様な手法を体系的に評価することにより,合成データ生成手法の実用的プライバシトレードオフに関する実用的な知見を提供し,実世界のアプリケーションに最適なデータ公開戦略の決定を導く。
関連論文リスト
- An Empirical Study of Validating Synthetic Data for Text-Based Person Retrieval [51.10419281315848]
我々は,テキストベース人検索(TBPR)研究における合成データの可能性を探るため,実証的研究を行った。
本稿では,自動プロンプト構築戦略を導入するクラス間画像生成パイプラインを提案する。
我々は、画像のさらなる編集に生成AIモデルを応用した、クラス内画像拡張パイプラインを開発する。
論文 参考訳(メタデータ) (2025-03-28T06:18:15Z) - Opinion: Revisiting synthetic data classifications from a privacy perspective [42.12937192948916]
合成データは、AI開発の増大するデータ要求を満たすための費用対効果のソリューションとして浮上している。
従来の合成データ型の分類は、合成データを生成するための絶え間なく増加する手法を反映していない。
我々は、プライバシーの観点をよりよく反映した、合成データ型をグループ化する、別のアプローチを例に挙げる。
論文 参考訳(メタデータ) (2025-03-05T13:54:13Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - SoK: Privacy-Preserving Data Synthesis [72.92263073534899]
本稿では,プライバシ保護データ合成(PPDS)に注目し,その分野の総合的な概要,分析,議論を行う。
PPDSでは,統計的手法と深層学習(DL)に基づく手法の2つの顕著な研究を統一するマスターレシピを作成した。
論文 参考訳(メタデータ) (2023-07-05T08:29:31Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - Synthetic Data for Model Selection [2.4499092754102874]
合成データはモデル選択に有用であることを示す。
そこで本研究では,実領域に適合する合成誤差推定をキャリブレーションする新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-03T09:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。