論文の概要: DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2503.12885v1
- Date: Mon, 17 Mar 2025 07:30:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:36.134534
- Title: DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models
- Title(参考訳): DreamRenderer:大規模テキスト・画像モデルにおけるマルチインスタンス属性制御のモデリング
- Authors: Dewei Zhou, Mingwei Li, Zongxin Yang, Yi Yang,
- Abstract要約: FLUXモデル上に構築されたトレーニング不要のアプローチであるDreamRendererを紹介します。
DreamRendererでは、バウンディングボックスやマスクを通じて各インスタンスのコンテンツを制御することができる。
1)Hard Text Attribute BindingのためのBridge Image Tokens – 複製された画像トークンをブリッジトークンとして使用することで,テキストデータのみに事前トレーニングされたT5テキストの埋め込みが,ジョイントアテンション中の各インスタンスの適切な視覚属性をバインドする。
- 参考スコア(独自算出の注目度): 32.748014282801634
- License:
- Abstract: Image-conditioned generation methods, such as depth- and canny-conditioned approaches, have demonstrated remarkable abilities for precise image synthesis. However, existing models still struggle to accurately control the content of multiple instances (or regions). Even state-of-the-art models like FLUX and 3DIS face challenges, such as attribute leakage between instances, which limits user control. To address these issues, we introduce DreamRenderer, a training-free approach built upon the FLUX model. DreamRenderer enables users to control the content of each instance via bounding boxes or masks, while ensuring overall visual harmony. We propose two key innovations: 1) Bridge Image Tokens for Hard Text Attribute Binding, which uses replicated image tokens as bridge tokens to ensure that T5 text embeddings, pre-trained solely on text data, bind the correct visual attributes for each instance during Joint Attention; 2) Hard Image Attribute Binding applied only to vital layers. Through our analysis of FLUX, we identify the critical layers responsible for instance attribute rendering and apply Hard Image Attribute Binding only in these layers, using soft binding in the others. This approach ensures precise control while preserving image quality. Evaluations on the COCO-POS and COCO-MIG benchmarks demonstrate that DreamRenderer improves the Image Success Ratio by 17.7% over FLUX and enhances the performance of layout-to-image models like GLIGEN and 3DIS by up to 26.8%. Project Page: https://limuloo.github.io/DreamRenderer/.
- Abstract(参考訳): 深度やカニー条件のアプローチのような画像条件付き生成法は、正確な画像合成に顕著な能力を示した。
しかし、既存のモデルは、複数のインスタンス(またはリージョン)のコンテンツを正確に制御するのに依然として苦労している。
FLUXや3DISのような最先端モデルでさえ、ユーザコントロールを制限するインスタンス間の属性リークなど、課題に直面している。
これらの問題に対処するために、FLUXモデル上に構築されたトレーニング不要のアプローチであるDreamRendererを紹介します。
DreamRendererを使うと、ユーザーはボックスやマスクを使って各インスタンスのコンテンツをコントロールできる。
私たちは2つの重要なイノベーションを提案します。
1) ハードテキスト属性バインディング用のブリッジイメージトークン。これは、複製された画像トークンをブリッジトークンとして使用し、テキストデータにのみ事前トレーニングされたT5テキストの埋め込みが、共同注意中に各インスタンスの正しい視覚属性をバインドすることを保証する。
2) ハードイメージ属性結合は必須層のみに適用される。
FLUXの分析を通じて、インスタンス属性のレンダリングに責任を負う重要なレイヤを特定し、これらのレイヤにのみハードイメージ属性バインディングを適用し、他のレイヤにソフトバインディングを適用します。
このアプローチは、画質を維持しながら正確な制御を保証する。
COCO-POSとCOCO-MIGベンチマークの評価は、DreamRendererがFLUXよりも17.7%改善し、GLIGENや3DISのようなレイアウト・ツー・イメージモデルの性能が26.8%向上したことを示している。
Project Page: https://limuloo.github.io/DreamRenderer/.com
関連論文リスト
- Context Canvas: Enhancing Text-to-Image Diffusion Models with Knowledge Graph-Based RAG [6.701537544179892]
本稿では,グラフベースのRAGを組み込むことにより,テキスト・ツー・イメージ・モデルの能力を高める新しい手法を提案する。
本システムは知識グラフから詳細な文字情報と関係データを動的に取得し,視覚的・文脈的にリッチな画像の生成を可能にする。
論文 参考訳(メタデータ) (2024-12-12T18:59:41Z) - GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis [10.47359822447001]
本稿では,複雑な多段階生成のタスクを3段階に分解する,T2I合成の代替パラダイムを提案する。
提案手法は,モジュール性が高く,トレーニングが自由であり,画像生成モデルと編集モデルの組み合わせに対して適用可能であるという事実から,その強みを導出する。
論文 参考訳(メタデータ) (2024-12-08T22:29:56Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - Localizing and Editing Knowledge in Text-to-Image Generative Models [62.02776252311559]
異なる属性に関する知識は、独立したコンポーネントにローカライズされず、代わりに条件付きUNetのコンポーネントセットに分散される。
テキスト・ツー・イメージ・モデルの概念を効果的に編集できる高速でデータフリーなモデル編集手法Diff-QuickFixを提案する。
論文 参考訳(メタデータ) (2023-10-20T17:31:12Z) - Compositional Text-to-Image Synthesis with Attention Map Control of
Diffusion Models [8.250234707160793]
近年のテキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトを条件とした高品質な画像の生成に優れた性能を示す。
コンポジション機能に制限があるため、生成したイメージとプロンプトを意味的にアライメントすることができない。
本稿では,これらの問題に対処するために,予測オブジェクトボックスに基づく新しいアテンションマスク制御手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T10:49:22Z) - CM3: A Causal Masked Multimodal Model of the Internet [86.32652030161374]
構造化マルチモーダル文書の大規模コーパス上で訓練された因果マスク付き生成モデルのファミリーであるCM3を紹介する。
我々は、大規模ウェブやウィキペディアの記事で因果的にマスキングされた言語イメージモデルを訓練する。
CM3モデルは、任意のマスキングされた文書コンテキストを条件にしながら、リッチな構造化されたマルチモーダル出力を生成することができる。
論文 参考訳(メタデータ) (2022-01-19T10:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。