論文の概要: Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement
- arxiv url: http://arxiv.org/abs/2411.06558v1
- Date: Sun, 10 Nov 2024 18:45:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:09:18.643659
- Title: Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement
- Title(参考訳): ハードボンディングとソフトリファインメントによる地域対応テキスト・画像生成
- Authors: Zhennan Chen, Yajie Li, Haofan Wang, Zhibo Chen, Zhengkai Jiang, Jun Li, Qian Wang, Jian Yang, Ying Tai,
- Abstract要約: 本稿では,正確なレイアウト構成のための地域記述を前提とした地域認識テキスト・画像生成手法であるRAGを提案する。
RAGは従来のチューニング不要手法よりも属性バインディングやオブジェクト関係よりも優れた性能を実現している。
- 参考スコア(独自算出の注目度): 40.94329069897935
- License:
- Abstract: In this paper, we present RAG, a Regional-Aware text-to-image Generation method conditioned on regional descriptions for precise layout composition. Regional prompting, or compositional generation, which enables fine-grained spatial control, has gained increasing attention for its practicality in real-world applications. However, previous methods either introduce additional trainable modules, thus only applicable to specific models, or manipulate on score maps within cross-attention layers using attention masks, resulting in limited control strength when the number of regions increases. To handle these limitations, we decouple the multi-region generation into two sub-tasks, the construction of individual region (Regional Hard Binding) that ensures the regional prompt is properly executed, and the overall detail refinement (Regional Soft Refinement) over regions that dismiss the visual boundaries and enhance adjacent interactions. Furthermore, RAG novelly makes repainting feasible, where users can modify specific unsatisfied regions in the last generation while keeping all other regions unchanged, without relying on additional inpainting models. Our approach is tuning-free and applicable to other frameworks as an enhancement to the prompt following property. Quantitative and qualitative experiments demonstrate that RAG achieves superior performance over attribute binding and object relationship than previous tuning-free methods.
- Abstract(参考訳): 本稿では,正確なレイアウト構成のための地域記述を前提とした地域認識テキスト・画像生成手法であるRAGを提案する。
空間制御のきめ細かい地域的プロンプトや構成生成は、現実の応用においてその実用性に注目が集まっている。
しかし、従来の手法ではトレーニング可能なモジュールが追加され、特定のモデルにのみ適用されるか、アテンションマスクを用いてクロスアテンション層内のスコアマップを操作することで、リージョン数が増加すると制御強度が制限される。
これらの制約に対処するため、マルチリージョン生成を2つのサブタスクに分割し、地域的なプロンプトを適切に実行するための個別領域(Regional Hard Binding)の構築と、視覚的境界を排除し、隣接する相互作用を強化する領域に対する全体的な詳細化(Regional Soft Refinement)を行う。
さらに、RAGは新規に塗り替え可能で、ユーザーは他のすべての領域を変更せずに、前世代の特定の不満足な領域を変更できる。
我々のアプローチはチューニングフリーであり、プロンプト後続プロパティの強化として他のフレームワークに適用できる。
定量的および定性的な実験により、RAGは従来のチューニング不要な手法よりも属性結合やオブジェクト関係よりも優れた性能を達成できることを示した。
関連論文リスト
- Differentiable Reasoning about Knowledge Graphs with Region-based Graph Neural Networks [62.93577376960498]
知識グラフ(KG)の完成法は、意味的正則性を捕捉し、これらの正則性を用いて、明示的に記述されていない妥当な知識を推測する必要がある。
ほとんどの埋め込みベースの手法はキャプチャ可能な正規性には不透明であるが、領域ベースのKG埋め込みモデルはより透明な代替手段として現れている。
命令制約に基づくシンプルなモデルであるRESHUFFLEを提案し、既存のアプローチよりもはるかに大きなルールベースを忠実に捉えることができる。
論文 参考訳(メタデータ) (2024-06-13T18:37:24Z) - RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection [20.630629383286262]
オープン・ボキャブラリ・オブジェクト検出は、地域-セマンティック関係のソリッド・モデリングを必要とする。
拡張性のあるオープン語彙領域-テキストペアを生成するRTGenを提案する。
論文 参考訳(メタデータ) (2024-05-30T09:03:23Z) - RegionGPT: Towards Region Understanding Vision Language Model [88.42271128373191]
RegionGPT(RGPT)は、複雑な地域レベルのキャプションと理解のために設計された新しいフレームワークである。
我々は、詳細な地域レベルのキャプションを備えたトレーニングセットを充実させる、自動領域キャプションデータ生成パイプラインを開発する。
本研究では,領域レベルのタスクに対して,汎用的なRGPTモデルを効果的に適用し,性能を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-03-04T18:58:08Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion
Models [74.3811832586391]
本稿では,ユーザ指定の関心領域 (RoI) や追加のテキスト入力を必要としない拡散モデルにおける局所化画像編集のためのLIMEを提案する。
本手法では,事前学習した手法と単純なクラスタリング手法を用いて,正確なセマンティックセグメンテーションマップを得る。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z) - Local Conditional Controlling for Text-to-Image Diffusion Models [26.54188248406709]
拡散モデルは、テキスト・ツー・イメージのタスクにおいて素晴らしい成果を上げている。
近年の手法では、エッジマップや深度マップなどの画像レベルの構造制御を追加して、テキストプロンプトとともに生成プロセスを操作し、所望の画像を取得する。
この制御プロセスは、制御領域の柔軟性を制限する全画像上でグローバルに操作される。
論文 参考訳(メタデータ) (2023-12-14T09:31:33Z) - Region-Aware Diffusion for Zero-shot Text-driven Image Editing [78.58917623854079]
本稿では,エンティティレベルの画像編集のための領域認識拡散モデル(RDM)を提案する。
画像の忠実度と推論速度のバランスをとるために,集中拡散パイプラインを設計する。
その結果、RDMは、視覚的品質、全体的な調和、非編集領域のコンテンツ保存、テキストイメージのセマンティック一貫性において、従来のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-02-23T06:20:29Z) - Region-Based Semantic Factorization in GANs [67.90498535507106]
本稿では,任意の画像領域についてGAN(Generative Adversarial Networks)が学習した潜在意味を分解するアルゴリズムを提案する。
適切に定義された一般化されたレイリー商を通して、アノテーションや訓練なしにそのような問題を解く。
様々な最先端のGANモデルに対する実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-02-19T17:46:02Z) - Translate the Facial Regions You Like Using Region-Wise Normalization [27.288255234645472]
本稿では,地域レベルでの顔翻訳のための正規化フレームワークを提案する。
これにより、異なる領域の形状やテクスチャを様々なターゲットスタイルに翻訳することができる。
我々のアプローチは翻訳対象地域を正確に制御する上でさらに有利である。
論文 参考訳(メタデータ) (2020-07-29T05:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。