Fugu-MT 論文翻訳(概要): Training-Free Layout Control with Cross-Attention Guidance

論文の概要: Training-Free Layout Control with Cross-Attention Guidance

arxiv url: http://arxiv.org/abs/2304.03373v2
Date: Wed, 29 Nov 2023 10:21:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 04:03:55.635850
Title: Training-Free Layout Control with Cross-Attention Guidance
Title（参考訳）: クロスアテンションガイダンスを用いたトレーニングフリーレイアウト制御
Authors: Minghao Chen, Iro Laina, Andrea Vedaldi
Abstract要約: 最近の拡散型ジェネレータはテキストプロンプトから高品質な画像を生成することができる。彼らはしばしば、構成の空間的レイアウトを指定するテキスト命令を無視している。本稿では,イメージジェネレータの訓練や微調整を必要とせずに,ロバストなレイアウト制御を実現するシンプルな手法を提案する。
参考スコア（独自算出の注目度）: 81.53405473966035
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent diffusion-based generators can produce high-quality images from textual prompts. However, they often disregard textual instructions that specify the spatial layout of the composition. We propose a simple approach that achieves robust layout control without the need for training or fine-tuning of the image generator. Our technique manipulates the cross-attention layers that the model uses to interface textual and visual information and steers the generation in the desired direction given, e.g., a user-specified layout. To determine how to best guide attention, we study the role of attention maps and explore two alternative strategies, forward and backward guidance. We thoroughly evaluate our approach on three benchmarks and provide several qualitative examples and a comparative analysis of the two strategies that demonstrate the superiority of backward guidance compared to forward guidance, as well as prior work. We further demonstrate the versatility of layout guidance by extending it to applications such as editing the layout and context of real images.
Abstract（参考訳）: 最近の拡散型ジェネレータはテキストプロンプトから高品質な画像を生成することができる。しかし、しばしば構成の空間配置を規定するテキスト命令を無視している。画像生成器のトレーニングや微調整を必要とせず,ロバストなレイアウト制御を実現するシンプルな手法を提案する。本手法は,モデルがテキスト情報と視覚情報をインタフェースするために使用するクロス・アテンション・レイヤを操作し,ユーザが指定したレイアウトなど,所望の方向に生成を制御する。注意を最もよく導く方法を決定するために,注意マップの役割を研究し,前方と後方の2つの戦略を探求する。我々は、3つのベンチマークに対するアプローチを徹底的に評価し、いくつかの質的例と、前もっての作業と同様に後ろ向きのガイダンスの優位性を示す2つの戦略の比較分析を行った。さらに,実画像のレイアウトやコンテキストの編集などのアプリケーションに拡張することにより,レイアウトガイダンスの汎用性を示す。

関連論文リスト

AlignGen: Boosting Personalized Image Generation with Cross-Modality Prior Alignment [74.47138661595584]
我々は、パーソナライズされた画像生成のためのクロスモーダル優先アライメント機構であるAlignGenを提案する。 AlignGenは、既存のゼロショットメソッドよりも優れており、一般的なテスト時間最適化アプローチを超えています。
論文参考訳（メタデータ） (2025-05-28T02:57:55Z)
Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文参考訳（メタデータ） (2024-03-12T00:02:03Z)
Self-supervised Photographic Image Layout Representation Learning [5.009120058742792]
我々は,不均一なレイアウトグラフを正確に,次元的に再現されたレイアウト表現に圧縮する,オートエンコーダに基づくネットワークアーキテクチャを開発した。より広い範囲のレイアウトカテゴリとよりリッチなセマンティクスを備えたLODBデータセットを紹介します。このデータセットに対する広範な実験は、写真画像レイアウト表現学習の領域における我々のアプローチの優れた性能を示すものである。
論文参考訳（メタデータ） (2024-03-06T14:28:53Z)
Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文参考訳（メタデータ） (2024-01-30T05:56:12Z)
Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文参考訳（メタデータ） (2023-12-04T18:55:35Z)
Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文参考訳（メタデータ） (2023-11-30T10:36:19Z)
LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。 LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文参考訳（メタデータ） (2023-11-21T04:28:12Z)
Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文参考訳（メタデータ） (2021-04-18T16:56:07Z)
TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。 StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文参考訳（メタデータ） (2020-12-06T16:20:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。