論文の概要: Diffusion Soup: Model Merging for Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.08431v1
- Date: Wed, 12 Jun 2024 17:16:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 15:47:23.010474
- Title: Diffusion Soup: Model Merging for Text-to-Image Diffusion Models
- Title(参考訳): Diffusion Soup:テキストと画像の拡散モデルのためのモデルマージ
- Authors: Benjamin Biggs, Arjun Seshadri, Yang Zou, Achin Jain, Aditya Golatkar, Yusheng Xie, Alessandro Achille, Ashwin Swaminathan, Stefano Soatto,
- Abstract要約: シャードデータに基づいてトレーニングされた拡散モデルの重みを平均化する,テキスト・ツー・イメージ・ジェネレーションの複合化手法であるDiffusion Soupを提案する。
提案手法は,構築により,追加記憶や推論コストを伴わずに,無学習の連続学習とアンラーニングを可能にする。
- 参考スコア(独自算出の注目度): 90.01635703779183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Diffusion Soup, a compartmentalization method for Text-to-Image Generation that averages the weights of diffusion models trained on sharded data. By construction, our approach enables training-free continual learning and unlearning with no additional memory or inference costs, since models corresponding to data shards can be added or removed by re-averaging. We show that Diffusion Soup samples from a point in weight space that approximates the geometric mean of the distributions of constituent datasets, which offers anti-memorization guarantees and enables zero-shot style mixing. Empirically, Diffusion Soup outperforms a paragon model trained on the union of all data shards and achieves a 30% improvement in Image Reward (.34 $\to$ .44) on domain sharded data, and a 59% improvement in IR (.37 $\to$ .59) on aesthetic data. In both cases, souping also prevails in TIFA score (respectively, 85.5 $\to$ 86.5 and 85.6 $\to$ 86.8). We demonstrate robust unlearning -- removing any individual domain shard only lowers performance by 1% in IR (.45 $\to$ .44) -- and validate our theoretical insights on anti-memorization using real data. Finally, we showcase Diffusion Soup's ability to blend the distinct styles of models finetuned on different shards, resulting in the zero-shot generation of hybrid styles.
- Abstract(参考訳): シャードデータに基づいてトレーニングされた拡散モデルの重みを平均化する,テキスト・ツー・イメージ・ジェネレーションの複合化手法であるDiffusion Soupを提案する。
提案手法では,データシャードに対応するモデルの追加や削除を再帰的に行うことができるため,追加メモリや推論コストを伴わずに,トレーニング不要な連続学習とアンラーニングが可能となる。
本研究では,成分分布の幾何学的平均を近似した重み空間の点から拡散スープを採取し,反記憶化保証を提供し,ゼロショットスタイルの混合を可能にすることを示す。
実証的には、Diffusion Soupはすべてのデータシャードの結合に基づいて訓練されたパラゴンモデルより優れており、ドメインシャードデータのイメージ・リワード(.34$\to$ .44)の30%改善、美的データのIR(.37$\to$ .59)の59%改善を実現している。
いずれの場合も、TIFAスコア(85.5$\to$86.5および85.6$\to$86.8)でもスープが優勢である。
堅牢なアンラーニング -- 個々のドメインシャードを削除すれば、IR(.45$\to$ .44)のパフォーマンスは1%低下します -- を実証し、実際のデータを使用して、アンチメモリ化に関する理論的洞察を検証します。
最後に、Diffusion Soupの異なるシャードに微調整されたモデルの異なるスタイルをブレンドする能力を示し、結果としてハイブリッドスタイルをゼロショットで生成する。
関連論文リスト
- Mitigating Embedding Collapse in Diffusion Models for Categorical Data [52.90687881724333]
我々は,学習を安定させる埋め込み空間内の連続拡散フレームワークであるCATDMを紹介する。
ベンチマーク実験により、CATDMは埋没崩壊を緩和し、FFHQ、LSUN教会、LSUNベッドルームにおいて優れた結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-10-18T09:12:33Z) - Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - MimicDiffusion: Purifying Adversarial Perturbation via Mimicking Clean
Diffusion Model [8.695439655048634]
拡散に基づく逆方向の浄化は、拡散モデルを用いて敵方向の攻撃に対してクリーンな画像を生成することに焦点を当てる。
そこで我々は,拡散モデルの生成過程を直接近似し,クリーンな画像を入力としてミミディフュージョン(MimicDiffusion)を提案する。
3つの画像データセットの実験により、MimicDiffusionは最先端のベースラインよりも大幅にパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2023-12-08T02:32:47Z) - Reducing Spatial Fitting Error in Distillation of Denoising Diffusion
Models [13.364271265023953]
拡散モデルの知識蒸留は、この制限に短いサンプリングプロセスで対処する有効な方法である。
本研究は,教師モデルと学生モデルの両方のトレーニングにおいて発生する空間的適合誤差に起因する。
SFERDは教師モデルと設計した意味的勾配予測器からの注意誘導を利用して、学生の適合誤差を低減する。
CIFAR-10で5.31、ImageNet 64$times$64で9.39のFIDを実現する。
論文 参考訳(メタデータ) (2023-11-07T09:19:28Z) - Upgrading VAE Training With Unlimited Data Plans Provided by Diffusion
Models [12.542073306638988]
VAEにおけるオーバーフィッティングエンコーダは,事前学習した拡散モデルからのサンプルのトレーニングによって効果的に緩和できることを示す。
提案手法を用いて学習したVAEの一般化性能,償却ギャップ,ロバスト性を3つの異なるデータセットで解析した。
論文 参考訳(メタデータ) (2023-10-30T15:38:39Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - GSURE-Based Diffusion Model Training with Corrupted Data [35.56267114494076]
本稿では, 劣化データのみに基づく生成拡散モデルのための新しいトレーニング手法を提案する。
顔画像と磁気共鳴画像(MRI)の撮影技術について紹介する。
論文 参考訳(メタデータ) (2023-05-22T15:27:20Z) - Better Diffusion Models Further Improve Adversarial Training [97.44991845907708]
拡散確率モデル (DDPM) によって生成されたデータは, 対人訓練を改善することが認識されている。
本稿では,効率のよい最新の拡散モデルを用いて,肯定的な回答を与える。
我々の逆向きに訓練されたモデルは、生成されたデータのみを使用してRobustBench上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-02-09T13:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。