論文の概要: Diffusion Cocktail: Mixing Domain-Specific Diffusion Models for Diversified Image Generations
- arxiv url: http://arxiv.org/abs/2312.08873v2
- Date: Mon, 9 Sep 2024 02:48:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 03:42:43.784505
- Title: Diffusion Cocktail: Mixing Domain-Specific Diffusion Models for Diversified Image Generations
- Title(参考訳): Diffusion Cocktail: 分割画像生成のためのドメイン特化拡散モデル混合
- Authors: Haoming Liu, Yuanhe Guo, Shengjie Wang, Hongyi Wen,
- Abstract要約: Diffusion Cocktail(ディフュージョン・コックテール、ディフュージョン・コックテール、Diffusion Cocktail、ディフュージョン・コックテール)は、複数の拡散モデル間でスタイルとコンテンツ情報を伝達する訓練のない方法である。
Ditailは生成プロセスのきめ細かい制御を提供し、スタイルやコンテンツの柔軟な操作を可能にする。
- 参考スコア(独自算出の注目度): 7.604214200457584
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models, capable of high-quality image generation, receive unparalleled popularity for their ease of extension. Active users have created a massive collection of domain-specific diffusion models by fine-tuning base models on self-collected datasets. Recent work has focused on improving a single diffusion model by uncovering semantic and visual information encoded in various architecture components. However, those methods overlook the vastly available set of fine-tuned diffusion models and, therefore, miss the opportunity to utilize their combined capacity for novel generation. In this work, we propose Diffusion Cocktail (Ditail), a training-free method that transfers style and content information between multiple diffusion models. This allows us to perform diversified generations using a set of diffusion models, resulting in novel images unobtainable by a single model. Ditail also offers fine-grained control of the generation process, which enables flexible manipulations of styles and contents. With these properties, Ditail excels in numerous applications, including style transfer guided by diffusion models, novel-style image generation, and image manipulation via prompts or collage inputs.
- Abstract(参考訳): 高品質な画像生成が可能な拡散モデルは、拡張が容易であるという点で、例外なく人気がある。
アクティブユーザは、自己コンパイルされたデータセットのベースモデルを微調整することで、ドメイン固有の拡散モデルの大規模なコレクションを作成しました。
最近の研究は、様々なアーキテクチャコンポーネントにエンコードされた意味情報と視覚情報を明らかにすることで、単一の拡散モデルを改善することに重点を置いている。
しかし、これらの手法は、非常に利用可能な微調整拡散モデルの集合を見落としているため、それらの組み合わせ能力を新しい世代に活用する機会を逃している。
本研究では,複数の拡散モデル間でスタイルや内容情報を伝達するトレーニング不要な手法であるDiffusion Cocktail (Ditail)を提案する。
これにより、拡散モデルの集合を用いて多様化世代を実行できるため、単一のモデルでは達成不可能な新しい画像が得られる。
Ditailはまた、生成プロセスのきめ細かい制御を提供し、スタイルやコンテンツの柔軟な操作を可能にする。
これらの特性により、ディテールは拡散モデルによって導かれるスタイル転送、新しいスタイルの画像生成、プロンプトやコラージュ入力による画像操作など、多くの応用に優れる。
関連論文リスト
- Diffusion Models For Multi-Modal Generative Modeling [32.61765315067488]
本稿では,共通拡散空間における統一多モード拡散モデルを構築することにより,拡散モデルを定義するための原理的手法を提案する。
本稿では,画像遷移,マスクイメージトレーニング,共同画像ラベル,共同画像表現生成モデリングなどのフレームワークを検証するために,複数のマルチモーダル生成設定を提案する。
論文 参考訳(メタデータ) (2024-07-24T18:04:17Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Interactive Fashion Content Generation Using LLMs and Latent Diffusion
Models [0.0]
ファッション可能な画像生成は、世界中の多様なファッションのイメージを合成することを目的としている。
拡散モデルとエネルギーベースモデル(EBM)の等価性を利用する手法を提案する。
以上の結果から,LLMを用いて潜在拡散モデルのプロンプトを洗練させることにより,グローバルな創造的,文化的に多様化したファッションスタイルの創出を支援することが示唆された。
論文 参考訳(メタデータ) (2023-05-15T18:38:25Z) - Extracting Training Data from Diffusion Models [77.11719063152027]
拡散モデルはトレーニングデータから個々の画像を記憶し,生成時に出力することを示す。
生成とフィルタのパイプラインを用いて、最先端のモデルから数千以上のトレーニング例を抽出する。
さまざまな設定で何百もの拡散モデルをトレーニングし、モデリングとデータ決定の違いがプライバシに与える影響を分析する。
論文 参考訳(メタデータ) (2023-01-30T18:53:09Z) - Diffusion Art or Digital Forgery? Investigating Data Replication in
Diffusion Models [53.03978584040557]
生成した画像とトレーニングサンプルを比較し、コンテンツが複製されたことを検知する画像検索フレームワークについて検討する。
フレームワークをオックスフォード花、Celeb-A、ImageNet、LAIONなど複数のデータセットでトレーニングされた拡散モデルに適用することにより、トレーニングセットのサイズがコンテンツ複製の速度にどのように影響するかを議論する。
論文 参考訳(メタデータ) (2022-12-07T18:58:02Z) - Versatile Diffusion: Text, Images and Variations All in One Diffusion
Model [76.89932822375208]
Versatile Diffusionは、テキスト・ツー・イメージ、画像・ツー・テキスト、バリエーションの複数のフローを1つの統一モデルで処理する。
私たちのコードとモデルはhttps://github.com/SHI-Labs/Versatile-Diffusion.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-11-15T17:44:05Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - DiffusionCLIP: Text-guided Image Manipulation Using Diffusion Models [33.79188588182528]
本稿では,コントラスト言語-画像事前学習(CLIP)損失を用いた拡散モデルを用いたテキスト駆動画像操作を行うDiffusionCLIPを提案する。
提案手法は、ドメイン内および外部の画像処理タスクのための、最新のGANベースの画像処理手法に匹敵する性能を有する。
本手法は,未知の領域から別の未知の領域への画像変換や,未知の領域におけるストローク条件の画像生成など,様々な新しい用途に容易に利用できる。
論文 参考訳(メタデータ) (2021-10-06T12:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。