論文の概要: Adapting Diffusion Models for Improved Prompt Compliance and Controllable Image Synthesis
- arxiv url: http://arxiv.org/abs/2410.21638v1
- Date: Tue, 29 Oct 2024 00:54:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:40:41.931164
- Title: Adapting Diffusion Models for Improved Prompt Compliance and Controllable Image Synthesis
- Title(参考訳): プロンプトコンプライアンスの改善と制御可能な画像合成のための拡散モデルの適用
- Authors: Deepak Sridhar, Abhishek Peri, Rohith Rachala, Nuno Vasconcelos,
- Abstract要約: この作品は新しい家族を紹介します。
因子グラフ拡散モデル(FG-DM)
FG-DMは結合分布をモデル化する。
イメージやコンディショニング変数、例えばセマンティック、スケッチなどです。
因子グラフ分解による 奥行きや正常な地図です
- 参考スコア(独自算出の注目度): 43.481539150288434
- License:
- Abstract: Recent advances in generative modeling with diffusion processes (DPs) enabled breakthroughs in image synthesis. Despite impressive image quality, these models have various prompt compliance problems, including low recall in generating multiple objects, difficulty in generating text in images, and meeting constraints like object locations and pose. For fine-grained editing and manipulation, they also require fine-grained semantic or instance maps that are tedious to produce manually. While prompt compliance can be enhanced by addition of loss functions at inference, this is time consuming and does not scale to complex scenes. To overcome these limitations, this work introduces a new family of \textit{Factor Graph Diffusion Models} (FG-DMs) that models the joint distribution of images and conditioning variables, such as semantic, sketch, depth or normal maps via a factor graph decomposition. This joint structure has several advantages, including support for efficient sampling based prompt compliance schemes, which produce images of high object recall, semi-automated fine-grained editing, text-based editing of conditions with noise inversion, explainability at intermediate levels, ability to produce labeled datasets for the training of downstream models such as segmentation or depth, training with missing data, and continual learning where new conditioning variables can be added with minimal or no modifications to the existing structure. We propose an implementation of FG-DMs by adapting a pre-trained Stable Diffusion (SD) model to implement all FG-DM factors, using only COCO dataset, and show that it is effective in generating images with 15\% higher recall than SD while retaining its generalization ability. We introduce an attention distillation loss that encourages consistency among the attention maps of all factors, improving the fidelity of the generated conditions and image.
- Abstract(参考訳): 拡散過程(DP)を用いた生成モデリングの最近の進歩は、画像合成のブレークスルーを可能にした。
印象的な画質にもかかわらず、これらのモデルには、複数のオブジェクトの生成におけるリコールの低さ、画像中のテキストの生成の困難さ、オブジェクトの位置やポーズなどの制約を満たすことなど、様々な緊急コンプライアンスの問題がある。
きめ細かい編集や操作には、手作業で作るのが面倒な細かなセマンティックマップやインスタンスマップも必要です。
迅速なコンプライアンスは推論時に損失関数を追加することで強化できるが、これは時間がかかり、複雑なシーンにスケールしない。
これらの制限を克服するために、この研究は、因子グラフ分解による意味、スケッチ、深さ、正規マップなどの画像と条件変数の共役分布をモデル化する新しいファクタグラフ拡散モデル(FG-DM)を導入した。
このジョイント構造には、高オブジェクトリコールによる効率的なサンプリングベースのプロンプトコンプライアンススキームのサポート、半自動化された微細な編集、ノイズインバージョンによる条件のテキストベースの編集、中間レベルの説明可能性、セグメンテーションや深さなどの下流モデルのトレーニングのためのラベル付きデータセットの作成機能、欠落データによるトレーニング、新しい条件変数を最小または無修正で追加可能な継続学習など、いくつかの利点がある。
本研究では,COCOデータセットのみを用いて,事前学習された安定拡散(SD)モデルを適用してFG-DMの実装を提案し,その一般化能力を維持しつつ,SDよりも15倍高い画像を生成するのに有効であることを示す。
我々は,すべての因子の注意マップ間の整合性を促進し,生成した条件や画像の忠実度を向上する注意蒸留損失を導入する。
関連論文リスト
- CFG++: Manifold-constrained Classifier Free Guidance for Diffusion Models [52.29804282879437]
CFG++は、従来のCFG固有のオフマンドの課題に取り組む新しいアプローチである。
より優れたインバージョン・ツー・イメージ生成、可逆性、ガイダンススケールの縮小、モード崩壊の削減などを提供する。
高次拡散解法に容易に統合でき、自然に蒸留拡散モデルに拡張できる。
論文 参考訳(メタデータ) (2024-06-12T10:40:10Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文 参考訳(メタデータ) (2023-11-28T21:14:02Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - A Unified Conditional Framework for Diffusion-based Image Restoration [39.418415473235235]
画像復元のための拡散モデルに基づく統一条件付きフレームワークを提案する。
我々は、軽量なUNetを利用して初期ガイダンスと拡散モデルを予測し、指導の残余を学習する。
そこで本研究では,高解像度画像を扱うために,単純なステップ間パッチ分割方式を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:22:24Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - High-Resolution Image Synthesis with Latent Diffusion Models [14.786952412297808]
オートエンコーダ上での拡散モデルの訓練は、複雑性の低減と詳細保存の間のほぼ最適点に初めて到達することができる。
我々の潜伏拡散モデル(LDMs)は,様々なタスクにおける画像インペイントと高い競争性能の新たな技術を実現する。
論文 参考訳(メタデータ) (2021-12-20T18:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。