論文の概要: Synthetic Image Learning: Preserving Performance and Preventing Membership Inference Attacks
- arxiv url: http://arxiv.org/abs/2407.15526v1
- Date: Mon, 22 Jul 2024 10:31:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-23 15:21:11.545364
- Title: Synthetic Image Learning: Preserving Performance and Preventing Membership Inference Attacks
- Title(参考訳): 合成画像学習:パフォーマンスの確保とメンバーシップ推論攻撃の防止
- Authors: Eugenio Lomurno, Matteo Matteucci,
- Abstract要約: 本稿では,下流分類器の学習のための合成データの生成と利用を最適化するパイプラインである知識リサイクル(KR)を紹介する。
このパイプラインの核心は生成的知識蒸留(GKD)であり、情報の品質と有用性を大幅に向上させる技術が提案されている。
その結果、実データと合成データでトレーニングされたモデルと、実データでトレーニングされたモデルとの性能差が著しく低下した。
- 参考スコア(独自算出の注目度): 5.0243930429558885
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generative artificial intelligence has transformed the generation of synthetic data, providing innovative solutions to challenges like data scarcity and privacy, which are particularly critical in fields such as medicine. However, the effective use of this synthetic data to train high-performance models remains a significant challenge. This paper addresses this issue by introducing Knowledge Recycling (KR), a pipeline designed to optimise the generation and use of synthetic data for training downstream classifiers. At the heart of this pipeline is Generative Knowledge Distillation (GKD), the proposed technique that significantly improves the quality and usefulness of the information provided to classifiers through a synthetic dataset regeneration and soft labelling mechanism. The KR pipeline has been tested on a variety of datasets, with a focus on six highly heterogeneous medical image datasets, ranging from retinal images to organ scans. The results show a significant reduction in the performance gap between models trained on real and synthetic data, with models based on synthetic data outperforming those trained on real data in some cases. Furthermore, the resulting models show almost complete immunity to Membership Inference Attacks, manifesting privacy properties missing in models trained with conventional techniques.
- Abstract(参考訳): 生成的人工知能は、合成データの生成を変革し、データ不足やプライバシーといった課題に対する革新的な解決策を提供する。
しかし、この合成データを高性能モデルのトレーニングに効果的に利用することは、依然として大きな課題である。
本稿では、下流分類器の学習に合成データの生成と利用を最適化するパイプラインである知識リサイクル(KR)を導入することにより、この問題に対処する。
このパイプラインの核心は生成的知識蒸留(GKD)であり、合成データセット再生とソフトラベリング機構を通じて分類器に提供する情報の品質と有用性を大幅に改善する技術である。
KRパイプラインはさまざまなデータセットでテストされており、網膜画像から臓器スキャンまで、非常に異質な6つの医療画像データセットに焦点を当てている。
その結果、実データと合成データでトレーニングされたモデルと、実データでトレーニングされたモデルとの性能差が著しく低下した。
さらに、得られたモデルはメンバーシップ推論攻撃に対するほぼ完全な免疫を示し、従来の手法で訓練されたモデルに欠けているプライバシー特性を示す。
関連論文リスト
- Prototype-Guided Diffusion for Digital Pathology: Achieving Foundation Model Performance with Minimal Clinical Data [6.318463500874778]
本研究では,高忠実度合成病理データを大規模に生成するプロトタイプ誘導拡散モデルを提案する。
我々のアプローチは、生成したデータの生物学的、診断学的に有意義な変動を保証します。
我々は、大規模な実世界のデータセットでトレーニングされたモデルよりも60倍-760倍少ないデータを使用しても、我々の合成データセットでトレーニングされた自己教師機能によって競争性能が向上することを示した。
論文 参考訳(メタデータ) (2025-04-15T21:17:39Z) - Your Image Generator Is Your New Private Dataset [4.09225917049674]
生成拡散モデルは、トレーニングデータを合成的に生成する強力なツールとして登場した。
本稿では,これらの課題に対処するために,テクスチャ・コンディションド・ナレッジ・リサイクリング・パイプラインを提案する。
パイプラインは10の多様な画像分類ベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-04-06T18:46:08Z) - An Empirical Study of Validating Synthetic Data for Text-Based Person Retrieval [51.10419281315848]
我々は,テキストベース人検索(TBPR)研究における合成データの可能性を探るため,実証的研究を行った。
本稿では,自動プロンプト構築戦略を導入するクラス間画像生成パイプラインを提案する。
我々は、画像のさらなる編集に生成AIモデルを応用した、クラス内画像拡張パイプラインを開発する。
論文 参考訳(メタデータ) (2025-03-28T06:18:15Z) - Neuro-Symbolic Scene Graph Conditioning for Synthetic Image Dataset Generation [3.8143958643887]
本稿では,合成画像データセット生成におけるニューロ・シンボリック条件付けの有用性について検討する。
シーングラフの形で構造化された記号表現が,関係制約を明示的に符号化することで,合成データ品質を向上させることができるかどうかを検討する。
その結果、Neuro-Symbolic条件付けは標準リコール基準で最大2.59%、データセット拡張時にNo Graph Constraint Recall基準で+2.83%の大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2025-03-21T15:26:16Z) - TSynD: Targeted Synthetic Data Generation for Enhanced Medical Image Classification [0.011037620731410175]
この研究は、生成モデルを誘導し、高い不確実性でデータを合成することを目的としている。
最適化プロセスによりオートエンコーダの特徴空間を変更する。
我々は,複数の分類タスクに対するテスト時間データ拡張と敵攻撃に対する堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-06-25T11:38:46Z) - Image Distillation for Safe Data Sharing in Histopathology [10.398266052019675]
病理組織学は、臨床医が正確な診断を行い、疾患の予後を判断し、適切な治療戦略を立案するのに役立つ。
深層学習技術が医療分野で成功していることが証明されるにつれ、主な課題はデータ可用性の制限とデータ共有とプライバシに関する懸念である。
私たちは、制約なしに共有できる必須情報をカプセル化する小さな合成データセットを作成します。
我々は,潜在拡散モデルを訓練し,少数の可読性合成画像を用いた新しい蒸留合成データセットを構築した。
論文 参考訳(メタデータ) (2024-06-19T13:19:08Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Derm-T2IM: Harnessing Synthetic Skin Lesion Data via Stable Diffusion
Models for Enhanced Skin Disease Classification using ViT and CNN [1.0499611180329804]
我々は、最近の数発学習の成功を拡大して、拡張されたデータ変換技術を統合することを目指している。
最先端機械学習モデルのトレーニングパイプラインに新たに生成された合成データを組み込むことによる影響について検討する。
論文 参考訳(メタデータ) (2024-01-10T13:46:03Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文 参考訳(メタデータ) (2023-05-17T10:50:38Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。