論文の概要: Control and Realism: Best of Both Worlds in Layout-to-Image without Training
- arxiv url: http://arxiv.org/abs/2506.15563v1
- Date: Wed, 18 Jun 2025 15:39:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.720864
- Title: Control and Realism: Best of Both Worlds in Layout-to-Image without Training
- Title(参考訳): コントロールとリアリズム - トレーニングなしのレイアウト・トゥ・イメージにおける両世界のベスト
- Authors: Bonan Li, Yinhan Hu, Songhua Liu, Xinchao Wang,
- Abstract要約: レイアウト・ツー・イメージ生成のためのトレーニング不要なWinWinLayを提案する。
制御精度とリアリズムを協調的に向上する,非局所的注意エネルギーと適応更新という2つの重要な戦略を提案する。
WinWinLayは、要素配置の制御とフォトリアリスティックな視覚的忠実さの達成に優れ、現在の最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 59.16447569868382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Layout-to-Image generation aims to create complex scenes with precise control over the placement and arrangement of subjects. Existing works have demonstrated that pre-trained Text-to-Image diffusion models can achieve this goal without training on any specific data; however, they often face challenges with imprecise localization and unrealistic artifacts. Focusing on these drawbacks, we propose a novel training-free method, WinWinLay. At its core, WinWinLay presents two key strategies, Non-local Attention Energy Function and Adaptive Update, that collaboratively enhance control precision and realism. On one hand, we theoretically demonstrate that the commonly used attention energy function introduces inherent spatial distribution biases, hindering objects from being uniformly aligned with layout instructions. To overcome this issue, non-local attention prior is explored to redistribute attention scores, facilitating objects to better conform to the specified spatial conditions. On the other hand, we identify that the vanilla backpropagation update rule can cause deviations from the pre-trained domain, leading to out-of-distribution artifacts. We accordingly introduce a Langevin dynamics-based adaptive update scheme as a remedy that promotes in-domain updating while respecting layout constraints. Extensive experiments demonstrate that WinWinLay excels in controlling element placement and achieving photorealistic visual fidelity, outperforming the current state-of-the-art methods.
- Abstract(参考訳): レイアウト・トゥ・イメージ生成は、被験者の配置と配置を正確に制御した複雑なシーンを作成することを目的としている。
既存の研究は、訓練済みのテキスト-画像拡散モデルが特定のデータをトレーニングせずにこの目標を達成することを示したが、不正確なローカライゼーションと非現実的なアーティファクトの課題に直面していることが多い。
これらの欠点に着目し,新しいトレーニングフリー手法WinWinLayを提案する。
WinWinLayのコアとなる2つの重要な戦略は、非局所注意エネルギー機能と適応更新であり、制御精度とリアリズムを協調的に強化する。
一方,一般的な注意エネルギー関数は空間分布バイアスを生じさせ,物体が一様に配置されるのを妨げていることを理論的に証明する。
この問題を克服するために、非局所的な事前注意は注意点を再分配し、オブジェクトが指定された空間条件によりよく適合できるようにする。
一方,バニラのバックプロパゲーション更新規則は,事前訓練された領域から逸脱し,アウト・オブ・ディストリビューション(アウト・オブ・ディストリビューション)アーティファクトにつながる可能性がある。
そこで我々は,レイアウト制約を尊重しながらドメイン内更新を促進する手法として,Langevin Dynamicsベースの適応更新方式を導入する。
広汎な実験により、WinWinLayは元素配置の制御と光現実的な視覚的忠実さの達成に優れており、現在の最先端手法よりも優れていることが示された。
関連論文リスト
- TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - PixMatch: Unsupervised Domain Adaptation via Pixelwise Consistency
Training [4.336877104987131]
教師なしドメイン適応はセマンティックセグメンテーションの有望なテクニックである。
対象領域整合性訓練の概念に基づく非監視領域適応のための新しいフレームワークを提案する。
私たちのアプローチはシンプルで、実装が簡単で、トレーニング時にメモリ効率が向上します。
論文 参考訳(メタデータ) (2021-05-17T19:36:28Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。