論文の概要: Stochastic Forward-Backward Deconvolution: Training Diffusion Models with Finite Noisy Datasets
- arxiv url: http://arxiv.org/abs/2502.05446v1
- Date: Sat, 08 Feb 2025 04:37:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:30:51.537074
- Title: Stochastic Forward-Backward Deconvolution: Training Diffusion Models with Finite Noisy Datasets
- Title(参考訳): 確率的前方逆デコンボリューション:有限ノイズデータセットを用いた拡散モデルの訓練
- Authors: Haoye Lu, Qifan Wu, Yaoliang Yu,
- Abstract要約: 近年の拡散型生成モデルは大量のデータセットのトレーニングによって顕著な結果を得るが、このプラクティスは記憶と著作権侵害に関する懸念を提起する。
提案されている治療法は、著作権問題のあるノイズの多いデータのみを訓練し、モデルが元のコンテンツを決して観察しないことを保証することである。
ノイズの多いサンプルからデータ分布を学習することは理論的には不可能であるが,十分なサンプルを集めるという実践的な課題は,学習をほぼ達成不可能にしている。
- 参考スコア(独自算出の注目度): 20.11176801612364
- License:
- Abstract: Recent diffusion-based generative models achieve remarkable results by training on massive datasets, yet this practice raises concerns about memorization and copyright infringement. A proposed remedy is to train exclusively on noisy data with potential copyright issues, ensuring the model never observes original content. However, through the lens of deconvolution theory, we show that although it is theoretically feasible to learn the data distribution from noisy samples, the practical challenge of collecting sufficient samples makes successful learning nearly unattainable. To overcome this limitation, we propose to pretrain the model with a small fraction of clean data to guide the deconvolution process. Combined with our Stochastic Forward--Backward Deconvolution (SFBD) method, we attain an FID of $6.31$ on CIFAR-10 with just $4\%$ clean images (and $3.58$ with $10\%$). Theoretically, we prove that SFBD guides the model to learn the true data distribution. The result also highlights the importance of pretraining on limited but clean data or the alternative from similar datasets. Empirical studies further support these findings and offer additional insights.
- Abstract(参考訳): 近年の拡散型生成モデルは大量のデータセットのトレーニングによって顕著な結果をもたらすが、このプラクティスは記憶と著作権侵害に関する懸念を提起する。
提案されている治療法は、著作権問題のあるノイズの多いデータのみを訓練し、モデルが元のコンテンツを決して観察しないことを保証することである。
しかし,デコンボリューション理論のレンズを通して,ノイズの多いサンプルからデータ分布を学習することは理論的には不可能であるが,十分なサンプルを集めるという実践的な課題は,学習をほぼ達成不可能にしていることを示す。
この制限を克服するため,クリーンなデータのごく一部でモデルを事前訓練し,デコンボリューションプロセスの導出を提案する。
Stochastic Forward--Backward Deconvolution (SFBD) 法と組み合わせて,CIFAR-10 上で FID が 6.31 ドル,クリーンイメージが 4\% (3.58 ドル,10\%) に達したのです。
理論的には、SFBDが真のデータ分布を学習するためにモデルを導くことを証明している。
この結果はまた、制限はあるがクリーンなデータや、類似したデータセットからの代替データに対する事前トレーニングの重要性を強調している。
実証的研究はこれらの発見をさらに支援し、さらなる洞察を与える。
関連論文リスト
- Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Consistent Diffusion Meets Tweedie: Training Exact Ambient Diffusion Models with Noisy Data [74.2507346810066]
アンビエント拡散(アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散
本稿では,ノイズの多い学習データのみを考慮し,故障のない分布から確実にサンプルを採取する拡散モデルのトレーニングのための最初のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-20T14:22:12Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - Ambient Diffusion: Learning Clean Distributions from Corrupted Data [77.34772355241901]
本稿では,高度に破損したサンプルのみを用いて未知の分布を学習できる拡散型フレームワークを提案する。
このアプローチのもうひとつのメリットは、個々のトレーニングサンプルを記憶しにくい生成モデルをトレーニングできることです。
論文 参考訳(メタデータ) (2023-05-30T17:43:33Z) - GSURE-Based Diffusion Model Training with Corrupted Data [35.56267114494076]
本稿では, 劣化データのみに基づく生成拡散モデルのための新しいトレーニング手法を提案する。
顔画像と磁気共鳴画像(MRI)の撮影技術について紹介する。
論文 参考訳(メタデータ) (2023-05-22T15:27:20Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Fair Generative Models via Transfer Learning [39.12323728810492]
公平な生成モデルを学ぶための伝達学習手法である FairTL を提案する。
i) 複数フィードバック, (ii) 線形プロブリング, 次いでファインチューニングの2つの改良点を紹介した。
大規模な実験により、fairTLとfairTL++は、生成されたサンプルの品質と公平性の両方において最先端を実現している。
論文 参考訳(メタデータ) (2022-12-02T01:44:38Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。