論文の概要: Test-time Controllable Image Generation by Explicit Spatial Constraint Enforcement
- arxiv url: http://arxiv.org/abs/2501.01368v1
- Date: Thu, 02 Jan 2025 17:26:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:13:39.105881
- Title: Test-time Controllable Image Generation by Explicit Spatial Constraint Enforcement
- Title(参考訳): 空間制約の明示的強化によるテスト時間制御可能な画像生成
- Authors: Z. Zhang, B. Liu, J. Bao, L. Chen, S. Zhu, J. Yu,
- Abstract要約: 本研究では,自然文のプロンプトと複雑な条件を考慮したテスト時間制御可能な生成手法を提案する。
具体的には,空間的条件を意味的条件と幾何学的条件に分離し,画像生成過程においてその一貫性を個別に強制する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent text-to-image generation favors various forms of spatial conditions, e.g., masks, bounding boxes, and key points. However, the majority of the prior art requires form-specific annotations to fine-tune the original model, leading to poor test-time generalizability. Meanwhile, existing training-free methods work well only with simplified prompts and spatial conditions. In this work, we propose a novel yet generic test-time controllable generation method that aims at natural text prompts and complex conditions. Specifically, we decouple spatial conditions into semantic and geometric conditions and then enforce their consistency during the image-generation process individually. As for the former, we target bridging the gap between the semantic condition and text prompts, as well as the gap between such condition and the attention map from diffusion models. To achieve this, we propose to first complete the prompt w.r.t. semantic condition, and then remove the negative impact of distracting prompt words by measuring their statistics in attention maps as well as distances in word space w.r.t. this condition. To further cope with the complex geometric conditions, we introduce a geometric transform module, in which Region-of-Interests will be identified in attention maps and further used to translate category-wise latents w.r.t. geometric condition. More importantly, we propose a diffusion-based latents-refill method to explicitly remove the impact of latents at the RoI, reducing the artifacts on generated images. Experiments on Coco-stuff dataset showcase 30$\%$ relative boost compared to SOTA training-free methods on layout consistency evaluation metrics.
- Abstract(参考訳): 最近のテキスト・ツー・イメージ生成では、例えば、マスク、バウンディングボックス、キーポイントといった様々な空間条件が好まれている。
しかしながら、以前の技術の大部分は、オリジナルのモデルを微調整するためにフォーム固有のアノテーションを必要としており、テスト時の一般化性は低い。
一方、既存のトレーニングフリー手法は、簡易なプロンプトと空間条件でのみ有効である。
本研究では,自然文のプロンプトや複雑な条件を対象とする,新しい汎用的なテスト時間制御可能生成手法を提案する。
具体的には,空間的条件を意味的条件と幾何学的条件に分離し,画像生成過程においてその一貫性を個別に強制する。
前者については、意味的条件とテキストプロンプトのギャップを埋めることと、拡散モデルからそのような条件と注意マップのギャップを埋めることを目的としている。
そこで本研究では,まず,単語空間 w.r.t. のセマンティックな条件を完了し,注意図や単語空間 w.r.t. の距離の統計値を測定することにより,単語の注意をそらすことによるネガティブな影響を取り除くことを提案する。
複雑な幾何学的条件にさらに対処するために、幾何学的変換モジュールを導入する。そこでは、関心領域を注意図で識別し、さらにカテゴリワイドな潜在変数w.r.t.幾何的条件を翻訳する。
さらに,RoIにおける潜伏剤の影響を明示的に除去し,生成した画像へのアーティファクトの低減を図るために,拡散式潜伏剤補充法を提案する。
Coco-stuffデータセットの実験では、レイアウト整合性評価指標に関するSOTAのトレーニング不要メソッドと比較して30$\%$の相対的な向上が示されている。
関連論文リスト
- RecDiffusion: Rectangling for Image Stitching with Diffusion Models [53.824503710254206]
画像縫合整形のための新しい拡散学習フレームワーク textbfRecDiffusion を提案する。
このフレームワークは運動拡散モデル(MDM)を組み合わせて運動場を生成し、縫合された画像の不規則な境界から幾何学的に修正された中間体へ効果的に遷移する。
論文 参考訳(メタデータ) (2024-03-28T06:22:45Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Norm-guided latent space exploration for text-to-image generation [45.3023997508166]
現在の訓練手順では、拡散モデルはノルム値の幅が狭い入力を観測した。
本研究では,2つの種を補間する新しい方法を提案し,新たに非ユークリッド計量を定義することを実証する。
本手法は,レアコンセプト画像の生成を著しく促進することを示す。
論文 参考訳(メタデータ) (2023-06-14T18:12:15Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - GECCO: Geometrically-Conditioned Point Diffusion Models [60.28388617034254]
テキスト上で条件付き画像を生成する拡散モデルが最近,コンピュータビジョンコミュニティをはるかに超えている。
ここでは、無条件および条件付きの両方の点雲を画像で生成するという、関連する問題に取り組む。
後者では,スパーク画像の特徴を点雲に投影することに基づく,幾何学的動機付けによる新しい条件付け手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T13:45:44Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。