論文の概要: Panoptic Diffusion Models: co-generation of images and segmentation maps
- arxiv url: http://arxiv.org/abs/2412.02929v1
- Date: Wed, 04 Dec 2024 00:42:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:09:46.441338
- Title: Panoptic Diffusion Models: co-generation of images and segmentation maps
- Title(参考訳): Panoptic Diffusion Models:画像とセグメンテーションマップの共同生成
- Authors: Yinghan Long, Kaushik Roy,
- Abstract要約: 本稿では,PDM(Panoptic Diffusion Model)を提案する。
PDMは画像とテキストのギャップを埋めるために、生成プロセス全体を通して詳細なビルトインガイダンスを提供するセグメンテーションレイアウトを構築する。
- 参考スコア(独自算出の注目度): 7.573297026523597
- License:
- Abstract: Recently, diffusion models have demonstrated impressive capabilities in text-guided and image-conditioned image generation. However, existing diffusion models cannot simultaneously generate a segmentation map of objects and a corresponding image from the prompt. Previous attempts either generate segmentation maps based on the images or provide maps as input conditions to control image generation, limiting their functionality to given inputs. Incorporating an inherent understanding of the scene layouts can improve the creativity and realism of diffusion models. To address this limitation, we present Panoptic Diffusion Model (PDM), the first model designed to generate both images and panoptic segmentation maps concurrently. PDM bridges the gap between image and text by constructing segmentation layouts that provide detailed, built-in guidance throughout the generation process. This ensures the inclusion of categories mentioned in text prompts and enriches the diversity of segments within the background. We demonstrate the effectiveness of PDM across two architectures: a unified diffusion transformer and a two-stream transformer with a pretrained backbone. To facilitate co-generation with fewer sampling steps, we incorporate a fast diffusion solver into PDM. Additionally, when ground-truth maps are available, PDM can function as a text-guided image-to-image generation model. Finally, we propose a novel metric for evaluating the quality of generated maps and show that PDM achieves state-of-the-art results in image generation with implicit scene control.
- Abstract(参考訳): 近年、拡散モデルはテキスト誘導画像生成や画像調和画像生成において印象的な機能を示している。
しかし、既存の拡散モデルでは、プロンプトからオブジェクトと対応する画像のセグメンテーションマップを同時に生成することはできない。
以前の試みでは、画像に基づいてセグメンテーションマップを生成したり、入力条件としてマップを提供して画像生成を制御したり、その機能を与えられた入力に制限したりしていた。
シーンレイアウトの固有の理解を組み込むことで、拡散モデルの創造性と現実性を向上させることができる。
この制限に対処するため,PDM(Panoptic Diffusion Model)を提案する。
PDMは画像とテキストのギャップを埋めるために、生成プロセス全体を通して詳細なビルトインガイダンスを提供するセグメンテーションレイアウトを構築する。
これにより、テキストのプロンプトに言及されたカテゴリのインクルージョンが保証され、バックグラウンド内のセグメントの多様性が強化される。
両アーキテクチャ間のPDMの有効性を実証する: 統一拡散変圧器と事前学習したバックボーンを持つ2ストリーム変圧器である。
より少ないサンプリングステップでコジェネレーションを容易にするため,高速拡散解法をPDMに組み込む。
さらに、地平線地図が利用できる場合、PDMはテキスト誘導画像・画像生成モデルとして機能する。
最後に、生成した地図の品質を評価するための新しい指標を提案し、暗黙のシーン制御による画像生成において、PDMが最先端の結果を達成することを示す。
関連論文リスト
- Diffusion-driven GAN Inversion for Multi-Modal Face Image Generation [41.341693150031546]
本稿では,テキストプロンプトとセマンティックマスクやマップなどの視覚入力を写真リアルな顔画像に変換するマルチモーダル顔画像生成手法を提案する。
本稿では,2つのモデルを連結し,特徴写像と注目マップの有意な表現を潜在符号に変換するための,シンプルなマッピングとスタイル変調ネットワークを提案する。
提案するネットワークは, リアルな2D, マルチビュー, スタイル化された顔画像を生成する。
論文 参考訳(メタデータ) (2024-05-07T14:33:40Z) - On the Multi-modal Vulnerability of Diffusion Models [56.08923332178462]
本稿では,MMP-Attackによる拡散モデル生成結果の操作について,特定の接尾辞を元のプロンプトに付加することで提案する。
我々のゴールは、拡散モデルを誘導し、元のオブジェクトを同時に除去しながら特定のオブジェクトを生成することである。
論文 参考訳(メタデータ) (2024-02-02T12:39:49Z) - EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - Adversarial Supervision Makes Layout-to-Image Diffusion Models Thrive [21.49096276631859]
現行のL2Iモデルは、テキスト経由の編集性が悪いか、生成された画像と入力レイアウトとのアライメントが弱いかのいずれかである。
我々は、従来のL2I拡散モデル(ALDM)の訓練パイプラインに敵の監督を統合することを提案する。
具体的には,画像と入力レイアウトとの間の画素レベルのアライメントに対して,拡散発生器に対して明示的なフィードバックを提供するセグメンテーションに基づく判別器を用いる。
論文 参考訳(メタデータ) (2024-01-16T20:31:46Z) - R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image
Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。
本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文 参考訳(メタデータ) (2023-10-13T05:48:42Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - SceneGenie: Scene Graph Guided Diffusion Models for Image Synthesis [38.22195812238951]
拡散モデルにおけるサンプリングプロセスのための新しいガイダンス手法を提案する。
提案手法では,CLIP埋め込みのセマンティックな特徴によってモデルをガイドし,幾何学的制約を強制する。
本研究は,拡散モデルサンプリングプロセスにおいて,境界ボックスとセグメンテーションマップガイダンスを組み込むことの有効性を示した。
論文 参考訳(メタデータ) (2023-04-28T00:14:28Z) - A Structure-Guided Diffusion Model for Large-Hole Image Completion [85.61681358977266]
画像中の大きな穴を埋める構造誘導拡散モデルを開発した。
本手法は,最先端の手法と比較して,優れた,あるいは同等の視覚的品質を実現する。
論文 参考訳(メタデータ) (2022-11-18T18:59:01Z) - SegDiff: Image Segmentation with Diffusion Probabilistic Models [81.16986859755038]
拡散確率法は最先端の画像生成に使用される。
画像分割を行うためにそのようなモデルを拡張する方法を提案する。
この方法は、トレーニング済みのバックボーンに頼ることなく、エンドツーエンドで学習する。
論文 参考訳(メタデータ) (2021-12-01T10:17:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。