Fugu-MT 論文翻訳(概要): EliGen: Entity-Level Controlled Image Generation with Regional Attention

論文の概要: EliGen: Entity-Level Controlled Image Generation with Regional Attention

arxiv url: http://arxiv.org/abs/2501.01097v2
Date: Tue, 21 Jan 2025 03:32:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 15:04:32.806393
Title: EliGen: Entity-Level Controlled Image Generation with Regional Attention
Title（参考訳）: EliGen: 地域を意識したエンティティレベル制御された画像生成
Authors: Hong Zhang, Zhongjie Duan, Xingjun Wang, Yingda Chen, Yu Zhang,
Abstract要約: Entity-Level制御画像生成のための新しいフレームワークであるEliGenを紹介する。追加パラメータを必要としない拡散変圧器のメカニズムである地域注意を導入する。我々はEliGenに、空間的精度と画質の両方において既存の手法を超越して、堅牢で正確な実体レベルの操作を実現するよう訓練する。
参考スコア（独自算出の注目度）: 7.7120747804211405
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in diffusion models have significantly advanced text-to-image generation, yet global text prompts alone remain insufficient for achieving fine-grained control over individual entities within an image. To address this limitation, we present EliGen, a novel framework for Entity-Level controlled Image Generation. We introduce regional attention, a mechanism for diffusion transformers that requires no additional parameters, seamlessly integrating entity prompts and arbitrary-shaped spatial masks. By contributing a high-quality dataset with fine-grained spatial and semantic entity-level annotations, we train EliGen to achieve robust and accurate entity-level manipulation, surpassing existing methods in both spatial precision and image quality. Additionally, we propose an inpainting fusion pipeline, extending EliGen's capabilities to multi-entity image inpainting tasks. We further demonstrate its flexibility by integrating it with other open-source models such as IP-Adapter, In-Context LoRA and MLLM, unlocking new creative possibilities. The source code, model, and dataset are published at https://github.com/modelscope/DiffSynth-Studio.
Abstract（参考訳）: 近年の拡散モデルの進歩はテキスト・画像生成が著しく進歩しているが、グローバルなテキストプロンプトだけでは画像内の個々のエンティティのきめ細かい制御を実現するには不十分である。この制限に対処するために、Entity-Levelコントロールされた画像生成のための新しいフレームワークであるEliGenを紹介する。本稿では,追加パラメータを必要としない拡散変圧器の局所的注意,エンティティプロンプトと任意の形状の空間マスクをシームレスに統合する機構を紹介する。空間的およびセマンティックなエンティティレベルのアノテーションで高品質なデータセットを提供することにより、EliGenをトレーニングし、空間的精度と画像品質の両方において既存の手法を超越して、堅牢で正確なエンティティレベルの操作を実現する。さらに,EliGenの能力をマルチエンタテインティングタスクに拡張する,エンタテインティング融合パイプラインを提案する。さらに、IP-Adapter、In-Context LoRA、MLLMといった他のオープンソースモデルと統合することで、その柔軟性を実証しています。ソースコード、モデル、データセットはhttps://github.com/modelscope/DiffSynth-Studio.comで公開されている。

関連論文リスト

ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation [108.69315278353932]
可変多層透明画像の直接生成を容易にするAnonymous Region Transformer(ART)を導入する。正確な制御とスケーラブルなレイヤ生成を可能にすることで、ARTはインタラクティブなコンテンツ作成のための新しいパラダイムを確立します。
論文参考訳（メタデータ） (2025-02-25T16:57:04Z)
Image Augmentation Agent for Weakly Supervised Semantic Segmentation [19.654959889052638]
弱教師付きセマンティックセマンティックセグメンテーション (WSSS) は画像レベルラベルのみを用いて顕著な進歩を遂げた。本稿では,データ生成の観点からWSSSを拡張できるIAA(Image Augmentation Agent)という新しいアプローチを提案する。 IAAは主に、大きな言語モデル(LLM)と拡散モデルを利用してWSSS用の追加画像を自動的に生成する拡張エージェントを設計する。
論文参考訳（メタデータ） (2024-12-29T11:32:55Z)
Generating Compositional Scenes via Text-to-image RGBA Instance Generation [82.63805151691024]
テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
論文参考訳（メタデータ） (2024-11-16T23:44:14Z)
Free-Mask: A Novel Paradigm of Integration Between the Segmentation Diffusion Model and Image Editing to Improve Segmentation Ability [5.767984430681467]
セグメンテーションのための拡散モデルと高度な画像編集機能を組み合わせたフレームワーク textbfFree-Mask を提案する。その結果、textbfFree-Mask は VOC 2012 ベンチマークで未確認のクラスに対して、新しい最先端の結果を達成していることがわかった。
論文参考訳（メタデータ） (2024-11-04T05:39:01Z)
MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文参考訳（メタデータ） (2024-04-15T17:55:56Z)
Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs [77.86214400258473]
トレーニング不要なテキスト・画像生成/編集フレームワークであるRecaption, Plan and Generate(RPG)を提案する。 RPGは、マルチモーダルLLMの強力な連鎖推論能力を活用し、テキストから画像への拡散モデルの合成性を高める。本フレームワークはMLLMアーキテクチャとの広範な互換性を示す。
論文参考訳（メタデータ） (2024-01-22T06:16:29Z)
SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。 SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文参考訳（メタデータ） (2023-08-20T04:09:12Z)
LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文参考訳（メタデータ） (2023-08-09T17:45:04Z)
Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning [6.288699905490906]
本稿では,新しいオープンドメインパーソナライズされた画像生成モデルであるSubject-Diffusionを提案する。提案手法は,他のSOTAフレームワークよりも,単一,複数,カスタマイズされた画像生成に優れる。
論文参考訳（メタデータ） (2023-07-21T08:09:47Z)
BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文参考訳（メタデータ） (2023-05-24T04:51:04Z)
Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文参考訳（メタデータ） (2022-11-22T20:39:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。