論文の概要: MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance
- arxiv url: http://arxiv.org/abs/2406.07209v2
- Date: Tue, 11 Feb 2025 10:58:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 17:19:28.999134
- Title: MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance
- Title(参考訳): MS拡散:レイアウト誘導によるマルチオブジェクトゼロショット画像のパーソナライズ
- Authors: X. Wang, Siming Fu, Qihan Huang, Wanggui He, Hao Jiang,
- Abstract要約: 本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
- 参考スコア(独自算出の注目度): 6.4680449907623006
- License:
- Abstract: Recent advancements in text-to-image generation models have dramatically enhanced the generation of photorealistic images from textual prompts, leading to an increased interest in personalized text-to-image applications, particularly in multi-subject scenarios. However, these advances are hindered by two main challenges: firstly, the need to accurately maintain the details of each referenced subject in accordance with the textual descriptions; and secondly, the difficulty in achieving a cohesive representation of multiple subjects in a single image without introducing inconsistencies. To address these concerns, our research introduces the MS-Diffusion framework for layout-guided zero-shot image personalization with multi-subjects. This innovative approach integrates grounding tokens with the feature resampler to maintain detail fidelity among subjects. With the layout guidance, MS-Diffusion further improves the cross-attention to adapt to the multi-subject inputs, ensuring that each subject condition acts on specific areas. The proposed multi-subject cross-attention orchestrates harmonious inter-subject compositions while preserving the control of texts. Comprehensive quantitative and qualitative experiments affirm that this method surpasses existing models in both image and text fidelity, promoting the development of personalized text-to-image generation. The project page is https://MS-Diffusion.github.io.
- Abstract(参考訳): 近年のテキスト・ツー・イメージ生成モデルの進歩により、テキスト・プロンプトからのフォトリアリスティック・イメージの生成が劇的に向上し、特にマルチオブジェクト・シナリオにおいて、パーソナライズされたテキスト・ツー・イメージ・アプリケーションへの関心が高まっている。
しかし、これらの進歩は、まず、テキスト記述に従って、参照対象の細部を正確に維持する必要があること、そして、複数の被写体を一貫性を持たずに単一の画像で結束表現することの難しさの2つの主な課題によって妨げられている。
これらの問題に対処するために,複数オブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
この革新的なアプローチは、接地トークンとフィーチャーリサンプラーを統合して、被験者間の詳細な忠実さを維持する。
レイアウトガイダンスにより、MS-Diffusionはクロスアテンションをさらに改善し、複数のオブジェクトの入力に適応し、各サブジェクト条件が特定の領域に作用することを保証する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、調和したオブジェクト間合成を行う。
包括的定量的・定性的実験により、この手法が画像とテキストの忠実度の両方において既存のモデルを上回ることが確認され、パーソナライズされたテキスト・ツー・イメージ生成の開発が促進される。
プロジェクトページはhttps://MS-Diffusion.github.io。
関連論文リスト
- Nested Attention: Semantic-aware Attention Values for Concept Personalization [78.90196530697897]
我々はNested Attentionを紹介した。これはモデル内の既存のクロスアテンション層にリッチで表現豊かなイメージ表現を注入する新しいメカニズムである。
私たちのキーとなるアイデアは、ネストした注意層から得られたクエリ依存の主観値を生成し、生成した画像の各領域について関連する主観的特徴を選択することである。
論文 参考訳(メタデータ) (2025-01-02T18:52:11Z) - EZIGen: Enhancing zero-shot personalized image generation with precise subject encoding and decoupled guidance [20.430259028981094]
EZIGenは、与えられたテキストプロンプトと被写体画像の両方に一致した画像を作成することを目的としている。
安定拡散モデルのトレーニング済みUNetをベースとした、慎重に製作された主画像エンコーダである。
統一されたモデルと100倍のトレーニングデータを備えた、複数のパーソナライズされた生成ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-09-12T14:44:45Z) - Layout-and-Retouch: A Dual-stage Framework for Improving Diversity in Personalized Image Generation [40.969861849933444]
1)レイアウト生成と2)リタッチの2段階からなる,Layout-and-Retouchと呼ばれる新しいP-T2I手法を提案する。
ステップブレンド推論では,バニラT2Iモデル固有のサンプルの多様性を利用して,多様なレイアウト画像を生成する。
第2段階では、マルチソースアテンションは、第1ステージからのコンテキスト画像を参照画像に置き換え、コンテキスト画像から構造を活用し、参照画像から視覚的特徴を抽出する。
論文 参考訳(メタデータ) (2024-07-13T05:28:45Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。