論文の概要: EliGen: Entity-Level Controlled Image Generation with Regional Attention
- arxiv url: http://arxiv.org/abs/2501.01097v1
- Date: Thu, 02 Jan 2025 06:46:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:13:49.776118
- Title: EliGen: Entity-Level Controlled Image Generation with Regional Attention
- Title(参考訳): EliGen: 地域を意識したエンティティレベル制御された画像生成
- Authors: Hong Zhang, Zhongjie Duan, Xingjun Wang, Yingda Chen, Yu Zhang,
- Abstract要約: Entity-Level制御画像生成のための新しいフレームワークであるEliGenを紹介する。
本稿では,追加パラメータを必要としない拡散変圧器の局所的注意,エンティティプロンプトと任意の形状の空間マスクをシームレスに統合する機構を紹介する。
我々はEliGenに、位置制御精度と画質の両方において既存の手法を超越して、堅牢で正確なエンティティレベルの操作を実現するよう訓練する。
- 参考スコア(独自算出の注目度): 7.7120747804211405
- License:
- Abstract: Recent advancements in diffusion models have significantly advanced text-to-image generation, yet global text prompts alone remain insufficient for achieving fine-grained control over individual entities within an image. To address this limitation, we present EliGen, a novel framework for Entity-Level controlled Image Generation. We introduce regional attention, a mechanism for diffusion transformers that requires no additional parameters, seamlessly integrating entity prompts and arbitrary-shaped spatial masks. By contributing a high-quality dataset with fine-grained spatial and semantic entity-level annotations, we train EliGen to achieve robust and accurate entity-level manipulation, surpassing existing methods in both positional control precision and image quality. Additionally, we propose an inpainting fusion pipeline, extending EliGen to multi-entity image inpainting tasks. We further demonstrate its flexibility by integrating it with community models such as IP-Adapter and MLLM, unlocking new creative possibilities. The source code, dataset, and model will be released publicly.
- Abstract(参考訳): 近年の拡散モデルの進歩はテキスト・画像生成が著しく進歩しているが、グローバルなテキストプロンプトだけでは画像内の個々のエンティティのきめ細かい制御を実現するには不十分である。
この制限に対処するために、Entity-Levelコントロールされた画像生成のための新しいフレームワークであるEliGenを紹介する。
本稿では,追加パラメータを必要としない拡散変圧器の局所的注意,エンティティプロンプトと任意の形状の空間マスクをシームレスに統合する機構を紹介する。
空間的およびセマンティックなエンティティレベルのアノテーションで高品質なデータセットを提供することにより、EliGenをトレーニングし、位置制御精度と画像品質の両方において既存の手法を上回り、堅牢で正確なエンティティレベルの操作を実現する。
さらに,EliGenをマルチエンタテインティングタスクに拡張する,エンタテインティング・フュージョン・パイプラインを提案する。
我々は、IP-AdapterやMLLMといったコミュニティモデルと統合することで、その柔軟性をさらに証明し、新たな創造可能性の解放を図っている。
ソースコード、データセット、モデルの公開が予定されている。
関連論文リスト
- Generating Compositional Scenes via Text-to-image RGBA Instance Generation [82.63805151691024]
テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。
本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。
実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
論文 参考訳(メタデータ) (2024-11-16T23:44:14Z) - Free-Mask: A Novel Paradigm of Integration Between the Segmentation Diffusion Model and Image Editing to Improve Segmentation Ability [5.767984430681467]
セグメンテーションのための拡散モデルと高度な画像編集機能を組み合わせたフレームワーク textbfFree-Mask を提案する。
その結果、textbfFree-Mask は VOC 2012 ベンチマークで未確認のクラスに対して、新しい最先端の結果を達成していることがわかった。
論文 参考訳(メタデータ) (2024-11-04T05:39:01Z) - MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。
本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T17:55:56Z) - Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs [77.86214400258473]
トレーニング不要なテキスト・画像生成/編集フレームワークであるRecaption, Plan and Generate(RPG)を提案する。
RPGは、マルチモーダルLLMの強力な連鎖推論能力を活用し、テキストから画像への拡散モデルの合成性を高める。
本フレームワークはMLLMアーキテクチャとの広範な互換性を示す。
論文 参考訳(メタデータ) (2024-01-22T06:16:29Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning [6.288699905490906]
本稿では,新しいオープンドメインパーソナライズされた画像生成モデルであるSubject-Diffusionを提案する。
提案手法は,他のSOTAフレームワークよりも,単一,複数,カスタマイズされた画像生成に優れる。
論文 参考訳(メタデータ) (2023-07-21T08:09:47Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。