論文の概要: Box It to Bind It: Unified Layout Control and Attribute Binding in T2I
Diffusion Models
- arxiv url: http://arxiv.org/abs/2402.17910v1
- Date: Tue, 27 Feb 2024 21:51:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:07:16.756501
- Title: Box It to Bind It: Unified Layout Control and Attribute Binding in T2I
Diffusion Models
- Title(参考訳): Box It to Bind it:T2I拡散モデルにおける統一レイアウト制御と属性結合
- Authors: Ashkan Taghipour, Morteza Ghahremani, Mohammed Bennamoun, Aref Miri
Rekavandi, Hamid Laga, and Farid Boussaid
- Abstract要約: Box-it-to-Bind-it (B2B) は、テキスト・トゥ・イメージ(T2I)拡散モデルにおける空間制御と意味的精度を改善するためのトレーニング不要なアプローチである。
B2Bは、破滅的な無視、属性バインディング、レイアウトガイダンスという、T2Iの3つの重要な課題をターゲットにしている。
B2Bは既存のT2Iモデルのプラグイン・アンド・プレイモジュールとして設計されている。
- 参考スコア(独自算出の注目度): 28.278822620442774
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While latent diffusion models (LDMs) excel at creating imaginative images,
they often lack precision in semantic fidelity and spatial control over where
objects are generated. To address these deficiencies, we introduce the
Box-it-to-Bind-it (B2B) module - a novel, training-free approach for improving
spatial control and semantic accuracy in text-to-image (T2I) diffusion models.
B2B targets three key challenges in T2I: catastrophic neglect, attribute
binding, and layout guidance. The process encompasses two main steps: i) Object
generation, which adjusts the latent encoding to guarantee object generation
and directs it within specified bounding boxes, and ii) attribute binding,
guaranteeing that generated objects adhere to their specified attributes in the
prompt. B2B is designed as a compatible plug-and-play module for existing T2I
models, markedly enhancing model performance in addressing the key challenges.
We evaluate our technique using the established CompBench and TIFA score
benchmarks, demonstrating significant performance improvements compared to
existing methods. The source code will be made publicly available at
https://github.com/nextaistudio/BoxIt2BindIt.
- Abstract(参考訳): 潜在拡散モデル(LDMs)は想像的画像を作成するのに優れているが、それらはしばしば意味的忠実さとオブジェクトが生成される場所の空間的制御の精度に欠ける。
これらの欠陥に対処するために,テキスト・トゥ・イメージ(T2I)拡散モデルにおける空間制御と意味的精度を改善するための新しいトレーニング不要アプローチであるBox-it-to-Bind-it(B2B)モジュールを導入する。
B2Bは、破滅的な無視、属性バインディング、レイアウトガイダンスの3つの主要な課題をターゲットにしている。
プロセスには2つの主要なステップが含まれます。
一 潜在符号化を調整して、オブジェクト生成を保証し、特定境界ボックス内に指示するオブジェクト生成及び
ii) 属性バインディングは、生成されたオブジェクトがプロンプトで指定された属性に従属することを保証します。
B2Bは既存のT2Iモデルのプラグイン・アンド・プレイモジュールとして設計されており、重要な課題に対処する上で、モデル性能を著しく向上させる。
確立されたCompBenchおよびTIFAスコアベンチマークを用いて,本手法の評価を行い,既存手法と比較して大幅な性能向上を示した。
ソースコードはhttps://github.com/nextaistudio/BoxIt2BindItで公開されている。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic Directions [21.371773126590874]
一般に使われているトークンレベルのCLIPテキスト埋め込みには,テキスト・ツー・イメージ・モデルにおける高レベル属性の微粒な主観的制御を可能にする方向が存在することを示す。
コントラッシブテキストプロンプトから特定の属性に対するこれらの方向を識別する,効率的な最適化自由度とロバストな最適化ベース手法を1つ導入する。
論文 参考訳(メタデータ) (2024-03-25T18:00:42Z) - DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
提案手法は,複雑なテクスチャプロンプトから複数のオブジェクトを生成する際の制御性と整合性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Skeleton-Guided Instance Separation for Fine-Grained Segmentation in
Microscopy [23.848474219551818]
顕微鏡(MS)画像解析における基本的な課題の1つは、インスタンスセグメンテーション(IS)である。
我々は,この課題に対処し,MS画像におけるISの精度を高めるために,A2B-ISという新しいワンステージフレームワークを提案する。
提案手法は2つの大規模MSデータセットに対して徹底的に検証されている。
論文 参考訳(メタデータ) (2024-01-18T11:14:32Z) - InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models [43.62338454684645]
本研究では,Human-Object Interaction (HOI) 情報を用いたT2I拡散モデルの条件付け問題について検討する。
我々は、既存の訓練済みT2I拡散モデルを拡張する、InteractDiffusionと呼ばれるプラグイン可能な相互作用制御モデルを提案する。
我々のモデルは既存のT2I拡散モデルにおける相互作用と位置を制御できる。
論文 参考訳(メタデータ) (2023-12-10T10:35:16Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - Context-Aware Layout to Image Generation with Enhanced Object Appearance [123.62597976732948]
レイアウト・トゥ・イメージ(l2i)生成モデルの目的は、自然背景(スタフ)に対して複数のオブジェクト(もの)を含む複雑な画像を生成することである。
既存のL2Iモデルは大きな進歩を遂げているが、オブジェクト間とオブジェクト間の関係はしばしば壊れている。
これらの原因は、ジェネレータにコンテキスト認識オブジェクトや機能エンコーディングがないことと、識別装置に位置依存の外観表現がないことにあります。
論文 参考訳(メタデータ) (2021-03-22T14:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。