論文の概要: Training-Free Layout Control with Cross-Attention Guidance
- arxiv url: http://arxiv.org/abs/2304.03373v1
- Date: Thu, 6 Apr 2023 21:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 13:38:36.961137
- Title: Training-Free Layout Control with Cross-Attention Guidance
- Title(参考訳): クロスアテンションガイダンスを用いたトレーニングフリーレイアウト制御
- Authors: Minghao Chen, Iro Laina, Andrea Vedaldi
- Abstract要約: 本稿では,イメージジェネレータの訓練や微調整を必要とせずに,ロバストなレイアウト制御を実現するための簡単な手法を提案する。
我々の手法はレイアウト誘導と呼ばれ、モデルがテキスト情報や視覚情報に利用するクロスアテンション層を操作します。
さらに,実画像のレイアウトとコンテキストを編集するタスクにレイアウトガイダンスを拡張することで,その汎用性を実証する。
- 参考スコア(独自算出の注目度): 98.16339441390464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent diffusion-based generators can produce high-quality images based only
on textual prompts. However, they do not correctly interpret instructions that
specify the spatial layout of the composition. We propose a simple approach
that can achieve robust layout control without requiring training or
fine-tuning the image generator. Our technique, which we call layout guidance,
manipulates the cross-attention layers that the model uses to interface textual
and visual information and steers the reconstruction in the desired direction
given, e.g., a user-specified layout. In order to determine how to best guide
attention, we study the role of different attention maps when generating images
and experiment with two alternative strategies, forward and backward guidance.
We evaluate our method quantitatively and qualitatively with several
experiments, validating its effectiveness. We further demonstrate its
versatility by extending layout guidance to the task of editing the layout and
context of a given real image.
- Abstract(参考訳): 近年の拡散型ジェネレータはテキストプロンプトのみに基づいて高品質な画像を生成することができる。
しかし、それらは構成の空間配置を規定する指示を正しく解釈するものではない。
画像生成器のトレーニングや微調整を必要とせず,ロバストなレイアウト制御を実現するための簡易な手法を提案する。
我々の手法はレイアウト誘導と呼ばれ、モデルがテキストや視覚情報をインターフェースするために使用する横断的なレイヤを操作し、ユーザが指定したレイアウトなどの所望の方向で再構築を行う。
注意喚起方法を決定するため,画像生成における注意マップの役割について検討し,前向きと後向きの2つの戦略を実験的に検討した。
本手法をいくつかの実験により定量的に定性的に評価し,その有効性を検証した。
さらに,実画像のレイアウトとコンテキストを編集するタスクにレイアウトガイダンスを拡張することで,その汎用性を実証する。
関連論文リスト
- Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Self-supervised Photographic Image Layout Representation Learning [5.009120058742792]
我々は,不均一なレイアウトグラフを正確に,次元的に再現されたレイアウト表現に圧縮する,オートエンコーダに基づくネットワークアーキテクチャを開発した。
より広い範囲のレイアウトカテゴリとよりリッチなセマンティクスを備えたLODBデータセットを紹介します。
このデータセットに対する広範な実験は、写真画像レイアウト表現学習の領域における我々のアプローチの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-03-06T14:28:53Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。