論文の概要: Box It to Bind It: Unified Layout Control and Attribute Binding in T2I
Diffusion Models
- arxiv url: http://arxiv.org/abs/2402.17910v1
- Date: Tue, 27 Feb 2024 21:51:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:07:16.756501
- Title: Box It to Bind It: Unified Layout Control and Attribute Binding in T2I
Diffusion Models
- Title(参考訳): Box It to Bind it:T2I拡散モデルにおける統一レイアウト制御と属性結合
- Authors: Ashkan Taghipour, Morteza Ghahremani, Mohammed Bennamoun, Aref Miri
Rekavandi, Hamid Laga, and Farid Boussaid
- Abstract要約: Box-it-to-Bind-it (B2B) は、テキスト・トゥ・イメージ(T2I)拡散モデルにおける空間制御と意味的精度を改善するためのトレーニング不要なアプローチである。
B2Bは、破滅的な無視、属性バインディング、レイアウトガイダンスという、T2Iの3つの重要な課題をターゲットにしている。
B2Bは既存のT2Iモデルのプラグイン・アンド・プレイモジュールとして設計されている。
- 参考スコア(独自算出の注目度): 28.278822620442774
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While latent diffusion models (LDMs) excel at creating imaginative images,
they often lack precision in semantic fidelity and spatial control over where
objects are generated. To address these deficiencies, we introduce the
Box-it-to-Bind-it (B2B) module - a novel, training-free approach for improving
spatial control and semantic accuracy in text-to-image (T2I) diffusion models.
B2B targets three key challenges in T2I: catastrophic neglect, attribute
binding, and layout guidance. The process encompasses two main steps: i) Object
generation, which adjusts the latent encoding to guarantee object generation
and directs it within specified bounding boxes, and ii) attribute binding,
guaranteeing that generated objects adhere to their specified attributes in the
prompt. B2B is designed as a compatible plug-and-play module for existing T2I
models, markedly enhancing model performance in addressing the key challenges.
We evaluate our technique using the established CompBench and TIFA score
benchmarks, demonstrating significant performance improvements compared to
existing methods. The source code will be made publicly available at
https://github.com/nextaistudio/BoxIt2BindIt.
- Abstract(参考訳): 潜在拡散モデル(LDMs)は想像的画像を作成するのに優れているが、それらはしばしば意味的忠実さとオブジェクトが生成される場所の空間的制御の精度に欠ける。
これらの欠陥に対処するために,テキスト・トゥ・イメージ(T2I)拡散モデルにおける空間制御と意味的精度を改善するための新しいトレーニング不要アプローチであるBox-it-to-Bind-it(B2B)モジュールを導入する。
B2Bは、破滅的な無視、属性バインディング、レイアウトガイダンスの3つの主要な課題をターゲットにしている。
プロセスには2つの主要なステップが含まれます。
一 潜在符号化を調整して、オブジェクト生成を保証し、特定境界ボックス内に指示するオブジェクト生成及び
ii) 属性バインディングは、生成されたオブジェクトがプロンプトで指定された属性に従属することを保証します。
B2Bは既存のT2Iモデルのプラグイン・アンド・プレイモジュールとして設計されており、重要な課題に対処する上で、モデル性能を著しく向上させる。
確立されたCompBenchおよびTIFAスコアベンチマークを用いて,本手法の評価を行い,既存手法と比較して大幅な性能向上を示した。
ソースコードはhttps://github.com/nextaistudio/BoxIt2BindItで公開されている。
関連論文リスト
- Boundary Attention Constrained Zero-Shot Layout-To-Image Generation [47.435234391588494]
近年のテキスト・画像拡散モデルでは,テキストからの高解像度画像の生成に優れるが,空間構成や物体数に対する精密な制御に苦慮している。
本稿では,新たなゼロショットL2IアプローチであるBACONを提案する。
自己アテンション特徴写像の画素間相関を利用して、交差アテンション写像を整列し、境界注意で制約された3つの損失関数を組み合わせ、潜時特徴を更新する。
論文 参考訳(メタデータ) (2024-11-15T05:44:45Z) - Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis [98.21700880115938]
Text-to-image (T2I) モデルは、しばしば入力プロンプトに意味的に関連付けられたオブジェクトや属性を正確に結合するのに失敗する。
Token Merging(ToMe)と呼ばれる新しい手法を導入し、関連するトークンを1つの複合トークンに集約することでセマンティックバインディングを強化する。
論文 参考訳(メタデータ) (2024-11-11T17:05:15Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic Directions [21.371773126590874]
一般に使われているトークンレベルのCLIPテキスト埋め込みには,テキスト・ツー・イメージ・モデルにおける高レベル属性の微粒な主観的制御を可能にする方向が存在することを示す。
コントラッシブテキストプロンプトから特定の属性に対するこれらの方向を識別する,効率的な最適化自由度とロバストな最適化ベース手法を1つ導入する。
論文 参考訳(メタデータ) (2024-03-25T18:00:42Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models [43.62338454684645]
本研究では,Human-Object Interaction (HOI) 情報を用いたT2I拡散モデルの条件付け問題について検討する。
我々は、既存の訓練済みT2I拡散モデルを拡張する、InteractDiffusionと呼ばれるプラグイン可能な相互作用制御モデルを提案する。
我々のモデルは既存のT2I拡散モデルにおける相互作用と位置を制御できる。
論文 参考訳(メタデータ) (2023-12-10T10:35:16Z) - Context-Aware Layout to Image Generation with Enhanced Object Appearance [123.62597976732948]
レイアウト・トゥ・イメージ(l2i)生成モデルの目的は、自然背景(スタフ)に対して複数のオブジェクト(もの)を含む複雑な画像を生成することである。
既存のL2Iモデルは大きな進歩を遂げているが、オブジェクト間とオブジェクト間の関係はしばしば壊れている。
これらの原因は、ジェネレータにコンテキスト認識オブジェクトや機能エンコーディングがないことと、識別装置に位置依存の外観表現がないことにあります。
論文 参考訳(メタデータ) (2021-03-22T14:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。