論文の概要: MALeR: Improving Compositional Fidelity in Layout-Guided Generation
- arxiv url: http://arxiv.org/abs/2511.06002v1
- Date: Sat, 08 Nov 2025 13:16:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.704549
- Title: MALeR: Improving Compositional Fidelity in Layout-Guided Generation
- Title(参考訳): MALeR:レイアウトガイドジェネレーションにおける組成忠実度の向上
- Authors: Shivank Saxena, Dhruv Srivastava, Makarand Tapaswi,
- Abstract要約: 複数の主題と属性を持つ画像を生成するレイアウト誘導方式MALeRを提案する。
提案手法は, 合成精度, 生成整合性, 属性結合性において, 従来よりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 18.038208275014917
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in text-to-image models have enabled a new era of creative and controllable image generation. However, generating compositional scenes with multiple subjects and attributes remains a significant challenge. To enhance user control over subject placement, several layout-guided methods have been proposed. However, these methods face numerous challenges, particularly in compositional scenes. Unintended subjects often appear outside the layouts, generated images can be out-of-distribution and contain unnatural artifacts, or attributes bleed across subjects, leading to incorrect visual outputs. In this work, we propose MALeR, a method that addresses each of these challenges. Given a text prompt and corresponding layouts, our method prevents subjects from appearing outside the given layouts while being in-distribution. Additionally, we propose a masked, attribute-aware binding mechanism that prevents attribute leakage, enabling accurate rendering of subjects with multiple attributes, even in complex compositional scenes. Qualitative and quantitative evaluation demonstrates that our method achieves superior performance in compositional accuracy, generation consistency, and attribute binding compared to previous work. MALeR is particularly adept at generating images of scenes with multiple subjects and multiple attributes per subject.
- Abstract(参考訳): 近年のテキスト・ツー・イメージ・モデルの発展により、創造的で制御可能な画像生成の新しい時代が実現された。
しかし、複数の主題や属性を持つ構成シーンを生成することは依然として大きな課題である。
対象の配置に対するユーザ制御を強化するため,レイアウト誘導方式がいくつか提案されている。
しかし、これらの手法は、特に作曲シーンにおいて多くの課題に直面している。
意図しない被写体は、しばしばレイアウトの外側に現れ、生成された画像は分布外になり、不自然なアーティファクトを含むか、被写体全体に血を流し、誤った視覚出力をもたらす。
本研究では,これらの課題に対処する手法であるMALeRを提案する。
テキストのプロンプトとそれに対応するレイアウトが与えられた場合、本手法では、被写体が分散状態にある場合に、所定のレイアウトの外側に現れるのを防ぐ。
さらに,複雑な構成シーンにおいても,属性の漏洩を防止し,複数の属性を持つ被験者の正確なレンダリングを可能にするマスク付き属性認識結合機構を提案する。
定性的および定量的評価により,本手法は従来よりも構成精度,生成整合性,属性結合性に優れることを示した。
MALeRは、複数の被写体と各被写体に複数の属性を持つシーンの画像を生成するのに特に適している。
関連論文リスト
- VSC: Visual Search Compositional Text-to-Image Diffusion Model [15.682990658945682]
本稿では,一対のイメージ埋め込みを利用して属性オブジェクトの結合を改善する新しい合成生成手法を提案する。
提案手法は,複雑なプロンプトをサブプロンプトに分解し,対応する画像を生成し,テキスト埋め込みと融合して表現を強化する視覚プロトタイプを計算する。
提案手法は,T2I CompBenchベンチマークにおける既存の合成テキスト・画像拡散モデルより優れ,画像品質の向上,人間による評価,およびプロンプト内の結合対のスケーリングによる堅牢性の向上を実現している。
論文 参考訳(メタデータ) (2025-05-02T08:31:43Z) - Nested Attention: Semantic-aware Attention Values for Concept Personalization [78.90196530697897]
我々はNested Attentionを紹介した。これはモデル内の既存のクロスアテンション層にリッチで表現豊かなイメージ表現を注入する新しいメカニズムである。
私たちのキーとなるアイデアは、ネストした注意層から得られたクエリ依存の主観値を生成し、生成した画像の各領域について関連する主観的特徴を選択することである。
論文 参考訳(メタデータ) (2025-01-02T18:52:11Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [5.452759083801634]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Training-free Subject-Enhanced Attention Guidance for Compositional Text-to-image Generation [22.949365270116335]
提案手法は,推論時間中に生成過程に介入するための学習不要な指導手法を提案する。
特に,本手法は例外的なゼロショット生成能力を示し,特にコンポジション生成の難易度が高い。
論文 参考訳(メタデータ) (2024-05-11T08:11:25Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z) - ManiCLIP: Multi-Attribute Face Manipulation from Text [104.30600573306991]
テキスト記述に基づく新しい多属性顔操作法を提案する。
本手法は,テキスト関連属性の編集を最小限に抑えた自然な顔を生成する。
論文 参考訳(メタデータ) (2022-10-02T07:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。