論文の概要: Modulating Pretrained Diffusion Models for Multimodal Image Synthesis
- arxiv url: http://arxiv.org/abs/2302.12764v1
- Date: Fri, 24 Feb 2023 17:28:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 12:52:42.326196
- Title: Modulating Pretrained Diffusion Models for Multimodal Image Synthesis
- Title(参考訳): マルチモーダル画像合成のための事前学習拡散モデル
- Authors: Cusuh Ham, James Hays, Jingwan Lu, Krishna Kumar Singh, Zhifei Zhang,
Tobias Hinz
- Abstract要約: マルチモーダルコンディショニングモジュール(MCM)は、サンプリング中に拡散ネットワークの予測を変調するために訓練される。
MCMは、画像の空間的レイアウトに対するユーザ制御を可能にし、画像生成プロセスに対するコントロールを増大させる。
- 参考スコア(独自算出の注目度): 42.06870552390612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present multimodal conditioning modules (MCM) for enabling conditional
image synthesis using pretrained diffusion models. Previous multimodal
synthesis works rely on training networks from scratch or fine-tuning
pretrained networks, both of which are computationally expensive for large,
state-of-the-art diffusion models. Our method uses pretrained networks but does
not require any updates to the diffusion network's parameters. MCM is a small
module trained to modulate the diffusion network's predictions during sampling
using 2D modalities (e.g., semantic segmentation maps, sketches) that were
unseen during the original training of the diffusion model. We show that MCM
enables user control over the spatial layout of the image and leads to
increased control over the image generation process. Training MCM is cheap as
it does not require gradients from the original diffusion net, consists of only
$\sim$1$\%$ of the number of parameters of the base diffusion model, and is
trained using only a limited number of training examples. We evaluate our
method on unconditional and text-conditional models to demonstrate the improved
control over the generated images and their alignment with respect to the
conditioning inputs.
- Abstract(参考訳): 事前学習した拡散モデルを用いて条件付き画像合成を可能にするマルチモーダルコンディショニングモジュール(MCM)を提案する。
これまでのマルチモーダル合成作業は、スクラッチや微調整済みネットワークからのトレーニングネットワークに依存しており、どちらも大規模で最先端の拡散モデルでは計算コストがかかる。
本手法は事前訓練ネットワークを用いるが,拡散ネットワークのパラメータの更新は不要である。
MCMは、拡散モデルのオリジナルの訓練中に見つからなかった2Dモーダル(セマンティックセグメンテーションマップ、スケッチなど)を用いて、サンプリング中に拡散ネットワークの予測を変調する訓練を受けた小さなモジュールである。
その結果,mcmは画像の空間配置をユーザが制御でき,画像生成プロセスの制御性が向上することがわかった。
mcmのトレーニングは、元の拡散ネットからの勾配を必要としないため安価であり、ベース拡散モデルのパラメータの数のわずか$\sim$$$%$であり、限られた数のトレーニング例のみを使用してトレーニングされる。
本手法は,無条件およびテキスト条件モデルに関する評価を行い,生成画像の制御と条件付け入力に対するアライメントの改善を実証する。
関連論文リスト
- Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model [101.65105730838346]
離散的かつ連続的なデータに対してマルチモーダルモデルをトレーニングするためのレシピであるTransfusionを紹介する。
我々はテキストと画像の混合データに基づいて,テキストから最大7Bパラメータまでの複数のTransfusionモデルを事前訓練する。
実験の結果,Transfusionは画像の定量化や個別画像トークンによる言語モデルの訓練よりも,はるかに優れたスケールを実現していることがわかった。
論文 参考訳(メタデータ) (2024-08-20T17:48:20Z) - Simple and Effective Masked Diffusion Language Models [48.68198363304619]
単純なマスク付き離散拡散は以前考えられていたよりも性能が高いことを示す。
マスク拡散モデルの性能を向上させる効果的なトレーニングレシピを適用した。
私たちの目標はシンプルなフォーム -- 古典的なマスキング言語モデリング損失の混合です。
論文 参考訳(メタデータ) (2024-06-11T17:51:40Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - TC-DiffRecon: Texture coordination MRI reconstruction method based on
diffusion model and modified MF-UNet method [2.626378252978696]
本稿では,T-DiffReconという名前の拡散モデルに基づくMRI再構成法を提案する。
また、モデルにより生成されたMRI画像の品質を高めるために、MF-UNetモジュールを組み込むことを提案する。
論文 参考訳(メタデータ) (2024-02-17T13:09:00Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - Unifying Diffusion Models' Latent Space, with Applications to
CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。
テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:53:52Z) - DiffusionCLIP: Text-guided Image Manipulation Using Diffusion Models [33.79188588182528]
本稿では,コントラスト言語-画像事前学習(CLIP)損失を用いた拡散モデルを用いたテキスト駆動画像操作を行うDiffusionCLIPを提案する。
提案手法は、ドメイン内および外部の画像処理タスクのための、最新のGANベースの画像処理手法に匹敵する性能を有する。
本手法は,未知の領域から別の未知の領域への画像変換や,未知の領域におけるストローク条件の画像生成など,様々な新しい用途に容易に利用できる。
論文 参考訳(メタデータ) (2021-10-06T12:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。