Fugu-MT 論文翻訳(概要): Box It to Bind It: Unified Layout Control and Attribute Binding in T2I Diffusion Models

論文の概要: Box It to Bind It: Unified Layout Control and Attribute Binding in T2I Diffusion Models

arxiv url: http://arxiv.org/abs/2402.17910v1
Date: Tue, 27 Feb 2024 21:51:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 17:07:16.756501
Title: Box It to Bind It: Unified Layout Control and Attribute Binding in T2I Diffusion Models
Title（参考訳）: Box It to Bind it:T2I拡散モデルにおける統一レイアウト制御と属性結合
Authors: Ashkan Taghipour, Morteza Ghahremani, Mohammed Bennamoun, Aref Miri Rekavandi, Hamid Laga, and Farid Boussaid
Abstract要約: Box-it-to-Bind-it (B2B) は、テキスト・トゥ・イメージ(T2I)拡散モデルにおける空間制御と意味的精度を改善するためのトレーニング不要なアプローチである。 B2Bは、破滅的な無視、属性バインディング、レイアウトガイダンスという、T2Iの3つの重要な課題をターゲットにしている。 B2Bは既存のT2Iモデルのプラグイン・アンド・プレイモジュールとして設計されている。
参考スコア（独自算出の注目度）: 28.278822620442774
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: While latent diffusion models (LDMs) excel at creating imaginative images, they often lack precision in semantic fidelity and spatial control over where objects are generated. To address these deficiencies, we introduce the Box-it-to-Bind-it (B2B) module - a novel, training-free approach for improving spatial control and semantic accuracy in text-to-image (T2I) diffusion models. B2B targets three key challenges in T2I: catastrophic neglect, attribute binding, and layout guidance. The process encompasses two main steps: i) Object generation, which adjusts the latent encoding to guarantee object generation and directs it within specified bounding boxes, and ii) attribute binding, guaranteeing that generated objects adhere to their specified attributes in the prompt. B2B is designed as a compatible plug-and-play module for existing T2I models, markedly enhancing model performance in addressing the key challenges. We evaluate our technique using the established CompBench and TIFA score benchmarks, demonstrating significant performance improvements compared to existing methods. The source code will be made publicly available at https://github.com/nextaistudio/BoxIt2BindIt.
Abstract（参考訳）: 潜在拡散モデル(LDMs)は想像的画像を作成するのに優れているが、それらはしばしば意味的忠実さとオブジェクトが生成される場所の空間的制御の精度に欠ける。これらの欠陥に対処するために,テキスト・トゥ・イメージ(T2I)拡散モデルにおける空間制御と意味的精度を改善するための新しいトレーニング不要アプローチであるBox-it-to-Bind-it(B2B)モジュールを導入する。 B2Bは、破滅的な無視、属性バインディング、レイアウトガイダンスの3つの主要な課題をターゲットにしている。プロセスには2つの主要なステップが含まれます。一潜在符号化を調整して、オブジェクト生成を保証し、特定境界ボックス内に指示するオブジェクト生成及び ii) 属性バインディングは、生成されたオブジェクトがプロンプトで指定された属性に従属することを保証します。 B2Bは既存のT2Iモデルのプラグイン・アンド・プレイモジュールとして設計されており、重要な課題に対処する上で、モデル性能を著しく向上させる。確立されたCompBenchおよびTIFAスコアベンチマークを用いて,本手法の評価を行い,既存手法と比較して大幅な性能向上を示した。ソースコードはhttps://github.com/nextaistudio/BoxIt2BindItで公開されている。

関連論文リスト

Concept-Aware LoRA for Domain-Aligned Segmentation Dataset Generation [66.66243874361103]
1) 生成されたサンプルを対象のドメインに整列させ、2) トレーニングデータ以外の情報的なサンプルを生成する。本稿では,ドメインアライメントに必要な概念に関連する重みのみを選択的に識別・更新する,新しい微調整手法であるConcept-Aware LoRAを提案する。都市・シーンのセグメンテーション, ベースライン, 最先端の手法をドメイン内設定で生成する上での有効性を実証する。
論文参考訳（メタデータ） (2025-03-28T06:23:29Z)
Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。 MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2025-03-27T00:59:14Z)
Plug-and-Play Interpretable Responsible Text-to-Image Generation via Dual-Space Multi-facet Concept Control [28.030708956348864]
スケーラブルなT2I生成を実現するためのユニークな手法を提案する。鍵となるアイデアは、ターゲットのT2Iパイプラインを、所望のコンセプトに対して解釈可能な複合責任空間を学習する外部プラグアンドプレイ機構で蒸留することである。推論では、学習空間を利用して生成内容を変調する。
論文参考訳（メタデータ） (2025-03-24T04:06:39Z)
Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-22T14:42:27Z)
BlobCtrl: A Unified and Flexible Framework for Element-level Image Generation and Editing [86.26405009039868]
BlobCtrlは、確率的ブロブベースの表現を使用して要素レベルの生成と編集を統合するフレームワークである。提案手法は,空間的位置,意味的内容,アイデンティティ情報を効果的に分離し,表現する。実験の結果、BlobCtrlは計算効率を保ちながら、様々な要素レベルの操作タスクに優れていた。
論文参考訳（メタデータ） (2025-03-17T17:58:05Z)
Boundary Attention Constrained Zero-Shot Layout-To-Image Generation [47.435234391588494]
近年のテキスト・画像拡散モデルでは,テキストからの高解像度画像の生成に優れるが,空間構成や物体数に対する精密な制御に苦慮している。本稿では,新たなゼロショットL2IアプローチであるBACONを提案する。自己アテンション特徴写像の画素間相関を利用して、交差アテンション写像を整列し、境界注意で制約された3つの損失関数を組み合わせ、潜時特徴を更新する。
論文参考訳（メタデータ） (2024-11-15T05:44:45Z)
Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis [98.21700880115938]
Text-to-image (T2I) モデルは、しばしば入力プロンプトに意味的に関連付けられたオブジェクトや属性を正確に結合するのに失敗する。 Token Merging(ToMe)と呼ばれる新しい手法を導入し、関連するトークンを1つの複合トークンに集約することでセマンティックバインディングを強化する。
論文参考訳（メタデータ） (2024-11-11T17:05:15Z)
Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。 ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文参考訳（メタデータ） (2024-07-08T12:28:56Z)
Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文参考訳（メタデータ） (2024-04-21T20:26:46Z)
Continuous, Subject-Specific Attribute Control in T2I Models by Identifying Semantic Directions [21.371773126590874]
一般に使われているトークンレベルのCLIPテキスト埋め込みには,テキスト・ツー・イメージ・モデルにおける高レベル属性の微粒な主観的制御を可能にする方向が存在することを示す。コントラッシブテキストプロンプトから特定の属性に対するこれらの方向を識別する,効率的な最適化自由度とロバストな最適化ベース手法を1つ導入する。
論文参考訳（メタデータ） (2024-03-25T18:00:42Z)
Direct Consistency Optimization for Compositional Text-to-Image Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文参考訳（メタデータ） (2024-02-19T09:52:41Z)
InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models [43.62338454684645]
本研究では,Human-Object Interaction (HOI) 情報を用いたT2I拡散モデルの条件付け問題について検討する。我々は、既存の訓練済みT2I拡散モデルを拡張する、InteractDiffusionと呼ばれるプラグイン可能な相互作用制御モデルを提案する。我々のモデルは既存のT2I拡散モデルにおける相互作用と位置を制御できる。
論文参考訳（メタデータ） (2023-12-10T10:35:16Z)
Context-Aware Layout to Image Generation with Enhanced Object Appearance [123.62597976732948]
レイアウト・トゥ・イメージ(l2i)生成モデルの目的は、自然背景(スタフ)に対して複数のオブジェクト(もの)を含む複雑な画像を生成することである。既存のL2Iモデルは大きな進歩を遂げているが、オブジェクト間とオブジェクト間の関係はしばしば壊れている。これらの原因は、ジェネレータにコンテキスト認識オブジェクトや機能エンコーディングがないことと、識別装置に位置依存の外観表現がないことにあります。
論文参考訳（メタデータ） (2021-03-22T14:43:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。