Fugu-MT 論文翻訳(概要): Layout Control and Semantic Guidance with Attention Loss Backward for T2I Diffusion Model

論文の概要: Layout Control and Semantic Guidance with Attention Loss Backward for T2I Diffusion Model

arxiv url: http://arxiv.org/abs/2411.06692v1
Date: Mon, 11 Nov 2024 03:27:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.337846
Title: Layout Control and Semantic Guidance with Attention Loss Backward for T2I Diffusion Model
Title（参考訳）: T2I拡散モデルにおける注意損失を考慮したレイアウト制御と意味誘導
Authors: Guandong Li,
Abstract要約: そこで我々は,横断的注意マップを巧みに制御する列車自由化手法を提案する。当社のアプローチは、生産における優れた実用的応用を実現しており、刺激的な技術レポートとして機能できることを願っています。
参考スコア（独自算出の注目度）: 13.67619785783182
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Controllable image generation has always been one of the core demands in image generation, aiming to create images that are both creative and logical while satisfying additional specified conditions. In the post-AIGC era, controllable generation relies on diffusion models and is accomplished by maintaining certain components or introducing inference interferences. This paper addresses key challenges in controllable generation: 1. mismatched object attributes during generation and poor prompt-following effects; 2. inadequate completion of controllable layouts. We propose a train-free method based on attention loss backward, cleverly controlling the cross attention map. By utilizing external conditions such as prompts that can reasonably map onto the attention map, we can control image generation without any training or fine-tuning. This method addresses issues like attribute mismatch and poor prompt-following while introducing explicit layout constraints for controllable image generation. Our approach has achieved excellent practical applications in production, and we hope it can serve as an inspiring technical report in this field.
Abstract（参考訳）: 制御可能な画像生成は、常に画像生成における中核的な要求の一つであり、追加の条件を満たすとともに、創造的で論理的な画像を作成することを目的としている。 AIGC後の時代には、制御可能な生成は拡散モデルに依存し、特定のコンポーネントの維持や推論干渉の導入によって達成される。本稿では,制御可能生成における鍵となる課題について述べる。 1. 生成時の不一致物属性及び急速追従効果 2. 制御可能なレイアウトの不十分な完成そこで我々は,横断的注意マップを巧みに制御する列車自由化手法を提案する。注意マップに合理的にマッピングできるプロンプトなどの外部条件を利用することで、トレーニングや微調整なしに画像生成を制御できる。この方法は、属性ミスマッチやプロンプトフォローの低さといった問題に対処し、制御可能な画像生成のための明示的なレイアウト制約を導入する。当社のアプローチは、生産における優れた実用的応用を実現しており、この分野におけるインスピレーションとなる技術レポートとして役立てられることを願っています。

関連論文リスト

UNCAGE: Contrastive Attention Guidance for Masked Generative Transformers in Text-to-Image Generation [15.585320469279813]
Masked Generative Transformersは、因果的注意と自己回帰的復号化の固有の限界を克服するために、Autoregressive Modelsに代わるものとして注目を集めている。本研究では,注意マップを活用することで構成の忠実度を向上させる新しいトレーニングフリー手法であるunmasking with Contrastive Attention Guidance (UNCAGE)を提案する。 UNCAGEは、複数のベンチマークとメトリクスにわたる定量評価と定性評価の両方のパフォーマンスを、無視可能な推論オーバーヘッドで一貫して改善する。
論文参考訳（メタデータ） (2025-08-07T13:51:17Z)
Scale Your Instructions: Enhance the Instruction-Following Fidelity of Unified Image Generation Model by Self-Adaptive Attention Scaling [54.54513714247062]
OmniGenのような統合画像生成モデルの最近の進歩により、単一のフレームワーク内で多様な画像生成および編集タスクの処理が可能になった。テキスト命令が複数のサブインストラクションを含む場合,テキスト命令の無視に悩まされることがわかった。本稿では,サブインストラクション毎に注意力の活性化を動的にスケールするために,自己適応型注意スケーリングを提案する。
論文参考訳（メタデータ） (2025-07-22T05:25:38Z)
Control and Realism: Best of Both Worlds in Layout-to-Image without Training [59.16447569868382]
レイアウト・ツー・イメージ生成のためのトレーニング不要なWinWinLayを提案する。制御精度とリアリズムを協調的に向上する,非局所的注意エネルギーと適応更新という2つの重要な戦略を提案する。 WinWinLayは、要素配置の制御とフォトリアリスティックな視覚的忠実さの達成に優れ、現在の最先端の手法よりも優れています。
論文参考訳（メタデータ） (2025-06-18T15:39:02Z)
Learning Flow Fields in Attention for Controllable Person Image Generation [59.10843756343987]
制御可能な人物画像生成は、参照画像に条件付けされた人物画像を生成することを目的としている。そこで本研究では,対象クエリに対して,適切な参照キーへの参照を明示的にガイドする学習フロー場(Leffa)を提案する。 Leffaは外観(仮想試行)とポーズ(目的移動)の制御における最先端のパフォーマンスを実現し、細かなディテール歪みを著しく低減する。
論文参考訳（メタデータ） (2024-12-11T15:51:14Z)
Boundary Attention Constrained Zero-Shot Layout-To-Image Generation [47.435234391588494]
近年のテキスト・画像拡散モデルでは,テキストからの高解像度画像の生成に優れるが,空間構成や物体数に対する精密な制御に苦慮している。本稿では,新たなゼロショットL2IアプローチであるBACONを提案する。自己アテンション特徴写像の画素間相関を利用して、交差アテンション写像を整列し、境界注意で制約された3つの損失関数を組み合わせ、潜時特徴を更新する。
論文参考訳（メタデータ） (2024-11-15T05:44:45Z)
OmniControlNet: Dual-stage Integration for Conditional Image Generation [61.1432268643639]
我々は、外部条件生成アルゴリズムを1つの高密度予測法に統合することにより、広く採用されているコントロールネットの双方向統合を提供する。提案したOmniControlNetは,1)タスク埋め込み指導下での1つのマルチタスク高密度予測アルゴリズムによる条件生成と,2)テキスト埋め込み指導下での異なる条件付き画像生成プロセスを統合した。
論文参考訳（メタデータ） (2024-06-09T18:03:47Z)
ECNet: Effective Controllable Text-to-Image Diffusion Models [31.21525123716149]
本稿では,条件付きテキスト・ツー・イメージモデルに対する2つの革新的なソリューションを提案する。まず,テキスト入力を正確なアノテーション情報で符号化することで,条件の詳細性を高める空間ガイダンス(SGI)を提案する。第二に、条件付き監督の制限を克服するため、拡散整合損失を導入する。これにより、各ステップにおける潜時符号と入力信号との一貫性が促進され、出力の堅牢性と精度が向上する。
論文参考訳（メタデータ） (2024-03-27T10:09:38Z)
Layout-to-Image Generation with Localized Descriptions using ControlNet with Cross-Attention Control [20.533597112330018]
レイアウト・ツー・イメージタスクにおけるControlNetの限界を示し、ローカライズされた記述を使えるようにする。制御性を改善しつつ画像品質を維持するために,新しいクロスアテンション操作法を開発した。
論文参考訳（メタデータ） (2024-02-20T22:15:13Z)
R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文参考訳（メタデータ） (2023-10-13T05:48:42Z)
LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文参考訳（メタデータ） (2023-08-09T17:45:04Z)
Controlling Text-to-Image Diffusion by Orthogonal Finetuning [74.21549380288631]
そこで本研究では,テキストから画像への拡散モデルを下流タスクに適用するための原理的な微調整手法であるorthogonal Finetuning(OFT)を提案する。既存の方法とは異なり、OFTは単位超球上の対のニューロン関係を特徴付ける超球面エネルギーを確実に保存することができる。我々のOFTフレームワークは、生成品質と収束速度において既存の手法よりも優れていることを実証的に示す。
論文参考訳（メタデータ） (2023-06-12T17:59:23Z)
Towards Unsupervised Deep Image Enhancement with Generative Adversarial Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文参考訳（メタデータ） (2020-12-30T03:22:46Z)
DTGAN: Dual Attention Generative Adversarial Networks for Text-to-Image Generation [8.26410341981427]
Dual Attention Generative Adversarial Network (DTGAN)は高品質でセマンティックな一貫性のある画像を合成できる。提案モデルでは,テキスト関連チャネルや画素に注目するようにジェネレータを誘導する,チャネル対応および画素対応アテンションモジュールを導入している。生成した画像の鮮明な形状と知覚的に均一な色分布を確保することにより、画像の解像度を高めるために、新しいタイプの視覚的損失を利用する。
論文参考訳（メタデータ） (2020-11-05T08:57:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。