論文の概要: Diffusion Cocktail: Fused Generation from Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.08873v1
- Date: Tue, 12 Dec 2023 00:53:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 22:40:32.590593
- Title: Diffusion Cocktail: Fused Generation from Diffusion Models
- Title(参考訳): 拡散カクテル:拡散モデルからの融合生成
- Authors: Haoming Liu, Yuanhe Guo, Shengjie Wang, Hongyi Wen
- Abstract要約: 拡散モデルは高品質な画像の生成に優れ、拡張が容易である。
最近の研究は、拡散モデルの様々なコンポーネントに符号化された意味情報と視覚情報を明らかにすることに焦点を当てている。
本研究では,2つの拡散モデル間でコンテンツ情報を正確に伝達できるトレーニング不要なDiffusion Cocktail(Ditail)を提案する。
- 参考スコア(独自算出の注目度): 8.307057730976432
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models excel at generating high-quality images and are easy to
extend, making them extremely popular among active users who have created an
extensive collection of diffusion models with various styles by fine-tuning
base models such as Stable Diffusion. Recent work has focused on uncovering
semantic and visual information encoded in various components of a diffusion
model, enabling better generation quality and more fine-grained control.
However, those methods target improving a single model and overlook the vastly
available collection of fine-tuned diffusion models. In this work, we study the
combinations of diffusion models. We propose Diffusion Cocktail (Ditail), a
training-free method that can accurately transfer content information between
two diffusion models. This allows us to perform diverse generations using a set
of diffusion models, resulting in novel images that are unlikely to be obtained
by a single model alone. We also explore utilizing Ditail for style transfer,
with the target style set by a diffusion model instead of an image. Ditail
offers a more detailed manipulation of the diffusion generation, thereby
enabling the vast community to integrate various styles and contents seamlessly
and generate any content of any style.
- Abstract(参考訳): 拡散モデルは高品質な画像の生成に優れ、拡張が容易であり、安定拡散のような微調整ベースモデルによって様々なスタイルで拡散モデルの広範なコレクションを作成してきたアクティブユーザの間では非常に人気がある。
最近の研究は、拡散モデルの様々なコンポーネントに符号化された意味情報と視覚情報を明らかにすることに集中しており、より優れた生成品質とよりきめ細かい制御を可能にしている。
しかし、これらの手法は単一モデルの改善を目標とし、広く利用可能な微調整拡散モデルの集合を見落としている。
本研究では拡散モデルの組み合わせについて検討する。
拡散カクテル(ditail)は,2つの拡散モデル間で正確なコンテンツ情報を伝達できるトレーニングフリーな手法である。
これにより、拡散モデルセットを使用して多様な世代を実行できるようになり、単一のモデルだけでは得られない新しい画像が得られる。
また,画像の代わりに拡散モデルによって設定された対象スタイルを用いて,ディテールを用いたスタイル転送についても検討する。
ditailは拡散生成をより詳細に操作できるので、幅広いコミュニティが様々なスタイルやコンテンツをシームレスに統合し、あらゆるスタイルのコンテンツを生成することができる。
関連論文リスト
- Diffusion Models For Multi-Modal Generative Modeling [32.61765315067488]
本稿では,共通拡散空間における統一多モード拡散モデルを構築することにより,拡散モデルを定義するための原理的手法を提案する。
本稿では,画像遷移,マスクイメージトレーニング,共同画像ラベル,共同画像表現生成モデリングなどのフレームワークを検証するために,複数のマルチモーダル生成設定を提案する。
論文 参考訳(メタデータ) (2024-07-24T18:04:17Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Interactive Fashion Content Generation Using LLMs and Latent Diffusion
Models [0.0]
ファッション可能な画像生成は、世界中の多様なファッションのイメージを合成することを目的としている。
拡散モデルとエネルギーベースモデル(EBM)の等価性を利用する手法を提案する。
以上の結果から,LLMを用いて潜在拡散モデルのプロンプトを洗練させることにより,グローバルな創造的,文化的に多様化したファッションスタイルの創出を支援することが示唆された。
論文 参考訳(メタデータ) (2023-05-15T18:38:25Z) - Extracting Training Data from Diffusion Models [77.11719063152027]
拡散モデルはトレーニングデータから個々の画像を記憶し,生成時に出力することを示す。
生成とフィルタのパイプラインを用いて、最先端のモデルから数千以上のトレーニング例を抽出する。
さまざまな設定で何百もの拡散モデルをトレーニングし、モデリングとデータ決定の違いがプライバシに与える影響を分析する。
論文 参考訳(メタデータ) (2023-01-30T18:53:09Z) - Diffusion Art or Digital Forgery? Investigating Data Replication in
Diffusion Models [53.03978584040557]
生成した画像とトレーニングサンプルを比較し、コンテンツが複製されたことを検知する画像検索フレームワークについて検討する。
フレームワークをオックスフォード花、Celeb-A、ImageNet、LAIONなど複数のデータセットでトレーニングされた拡散モデルに適用することにより、トレーニングセットのサイズがコンテンツ複製の速度にどのように影響するかを議論する。
論文 参考訳(メタデータ) (2022-12-07T18:58:02Z) - Versatile Diffusion: Text, Images and Variations All in One Diffusion
Model [76.89932822375208]
Versatile Diffusionは、テキスト・ツー・イメージ、画像・ツー・テキスト、バリエーションの複数のフローを1つの統一モデルで処理する。
私たちのコードとモデルはhttps://github.com/SHI-Labs/Versatile-Diffusion.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-11-15T17:44:05Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - DiffusionCLIP: Text-guided Image Manipulation Using Diffusion Models [33.79188588182528]
本稿では,コントラスト言語-画像事前学習(CLIP)損失を用いた拡散モデルを用いたテキスト駆動画像操作を行うDiffusionCLIPを提案する。
提案手法は、ドメイン内および外部の画像処理タスクのための、最新のGANベースの画像処理手法に匹敵する性能を有する。
本手法は,未知の領域から別の未知の領域への画像変換や,未知の領域におけるストローク条件の画像生成など,様々な新しい用途に容易に利用できる。
論文 参考訳(メタデータ) (2021-10-06T12:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。