論文の概要: R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image
Generation
- arxiv url: http://arxiv.org/abs/2310.08872v4
- Date: Thu, 26 Oct 2023 02:24:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 00:45:59.399090
- Title: R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image
Generation
- Title(参考訳): R&B: ゼロショット接地画像生成における領域と境界認識
- Authors: Jiayu Xiao, Liang Li, Henglei Lv, Shuhui Wang, Qingming Huang
- Abstract要約: 拡散モデルを用いてゼロショット接地T2I生成を探索する。
本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
- 参考スコア(独自算出の注目度): 74.5598315066249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-image (T2I) diffusion models have achieved remarkable progress
in generating high-quality images given text-prompts as input. However, these
models fail to convey appropriate spatial composition specified by a layout
instruction. In this work, we probe into zero-shot grounded T2I generation with
diffusion models, that is, generating images corresponding to the input layout
information without training auxiliary modules or finetuning diffusion models.
We propose a Region and Boundary (R&B) aware cross-attention guidance approach
that gradually modulates the attention maps of diffusion model during
generative process, and assists the model to synthesize images (1) with high
fidelity, (2) highly compatible with textual input, and (3) interpreting layout
instructions accurately. Specifically, we leverage the discrete sampling to
bridge the gap between consecutive attention maps and discrete layout
constraints, and design a region-aware loss to refine the generative layout
during diffusion process. We further propose a boundary-aware loss to
strengthen object discriminability within the corresponding regions.
Experimental results show that our method outperforms existing state-of-the-art
zero-shot grounded T2I generation methods by a large margin both qualitatively
and quantitatively on several benchmarks.
- Abstract(参考訳): 近年のテキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトを入力とする高品質な画像の生成が顕著に進んでいる。
しかし、これらのモデルはレイアウト命令によって指定された適切な空間構成を伝達できない。
本研究では,入力レイアウト情報に対応する画像を生成する拡散モデルを用いて,補助モジュールの訓練や拡散モデルの微調整を行わずにゼロショットグラウンドt2i生成を探索する。
本研究では,生成過程において拡散モデルの注意マップを徐々に変調し,(1)高い忠実度,(2)テキスト入力と高い適合性,(3)レイアウト命令の正確な解釈を支援する領域・境界(r&b)対応のクロス・アテンション誘導手法を提案する。
具体的には,連続したアテンションマップと離散レイアウト制約とのギャップを埋めるために離散サンプリングを利用し,拡散過程における生成レイアウトを洗練するために領域認識損失を設計する。
さらに,対象領域における識別可能性を高めるための境界認識損失を提案する。
実験結果から,提案手法は,既存のゼロショットグラウンドドT2I生成手法よりも,定性的かつ定量的に,複数のベンチマークで大きなマージンを達成できた。
関連論文リスト
- Boundary Attention Constrained Zero-Shot Layout-To-Image Generation [47.435234391588494]
近年のテキスト・画像拡散モデルでは,テキストからの高解像度画像の生成に優れるが,空間構成や物体数に対する精密な制御に苦慮している。
本稿では,新たなゼロショットL2IアプローチであるBACONを提案する。
自己アテンション特徴写像の画素間相関を利用して、交差アテンション写像を整列し、境界注意で制約された3つの損失関数を組み合わせ、潜時特徴を更新する。
論文 参考訳(メタデータ) (2024-11-15T05:44:45Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation [28.079441901818296]
我々は,粒度の細かい視野の整合性を明示したNeRF(Neural Radiance Fields)のテキスト・ツー・3D手法を提案する。
本手法は,既存のテキスト・ツー・3D法に対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T01:09:49Z) - Dense Text-to-Image Generation with Attention Modulation [49.287458275920514]
既存のテキストと画像の拡散モデルは、高密度キャプションを与えられた現実的なイメージを合成するのに苦労する。
そこで我々はDenseDiffusionを提案する。DenseDiffusionは、訓練済みのテキスト・ツー・イメージ・モデルを用いて、そのような高密度キャプションを扱う訓練自由な方法である。
レイアウト条件に特化して訓練したモデルを用いて、同様の品質の視覚的結果を得る。
論文 参考訳(メタデータ) (2023-08-24T17:59:01Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Grounded Text-to-Image Synthesis with Attention Refocusing [16.9170825951175]
拡散モデルのクロスアテンション層と自己アテンション層の潜在的な原因を明らかにする。
そこで本研究では,サンプリング中の空間配置に応じて注目マップを再焦点化するための2つの新たな損失を提案する。
提案手法は,既存手法の制御性を効果的に向上することを示す。
論文 参考訳(メタデータ) (2023-06-08T17:59:59Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - SceneGenie: Scene Graph Guided Diffusion Models for Image Synthesis [38.22195812238951]
拡散モデルにおけるサンプリングプロセスのための新しいガイダンス手法を提案する。
提案手法では,CLIP埋め込みのセマンティックな特徴によってモデルをガイドし,幾何学的制約を強制する。
本研究は,拡散モデルサンプリングプロセスにおいて,境界ボックスとセグメンテーションマップガイダンスを組み込むことの有効性を示した。
論文 参考訳(メタデータ) (2023-04-28T00:14:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。