Fugu-MT 論文翻訳(概要): MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance

論文の概要: MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance

arxiv url: http://arxiv.org/abs/2406.07209v1
Date: Tue, 11 Jun 2024 12:32:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 16:03:55.317633
Title: MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance
Title（参考訳）: MS拡散:レイアウト誘導によるマルチオブジェクトゼロショット画像のパーソナライズ
Authors: X. Wang, Siming Fu, Qihan Huang, Wanggui He, Hao Jiang,
Abstract要約: 本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
参考スコア（独自算出の注目度）: 6.4680449907623006
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in text-to-image generation models have dramatically enhanced the generation of photorealistic images from textual prompts, leading to an increased interest in personalized text-to-image applications, particularly in multi-subject scenarios. However, these advances are hindered by two main challenges: firstly, the need to accurately maintain the details of each referenced subject in accordance with the textual descriptions; and secondly, the difficulty in achieving a cohesive representation of multiple subjects in a single image without introducing inconsistencies. To address these concerns, our research introduces the MS-Diffusion framework for layout-guided zero-shot image personalization with multi-subjects. This innovative approach integrates grounding tokens with the feature resampler to maintain detail fidelity among subjects. With the layout guidance, MS-Diffusion further improves the cross-attention to adapt to the multi-subject inputs, ensuring that each subject condition acts on specific areas. The proposed multi-subject cross-attention orchestrates harmonious inter-subject compositions while preserving the control of texts. Comprehensive quantitative and qualitative experiments affirm that this method surpasses existing models in both image and text fidelity, promoting the development of personalized text-to-image generation.
Abstract（参考訳）: 近年のテキスト・ツー・イメージ生成モデルの進歩により、テキスト・プロンプトからのフォトリアリスティック・イメージの生成が劇的に向上し、特にマルチオブジェクト・シナリオにおいて、パーソナライズされたテキスト・ツー・イメージ・アプリケーションへの関心が高まっている。しかし、これらの進歩は、まず、テキスト記述に従って、参照対象の細部を正確に維持する必要があること、そして、複数の被写体を一貫性を持たずに単一の画像で結束表現することの難しさの2つの主な課題によって妨げられている。これらの問題に対処するために,複数オブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。この革新的なアプローチは、接地トークンとフィーチャーリサンプラーを統合して、被験者間の詳細な忠実さを維持する。レイアウトガイダンスにより、MS-Diffusionはクロスアテンションをさらに改善し、複数のオブジェクトの入力に適応し、各サブジェクト条件が特定の領域に作用することを保証する。提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、調和したオブジェクト間合成を行う。包括的定量的・定性的実験により、この手法が画像とテキストの忠実度の両方において既存のモデルを上回ることが確認され、パーソナライズされたテキスト・ツー・イメージ生成の開発が促進される。

関連論文リスト

In-Context Brush: Zero-shot Customized Subject Insertion with Context-Aware Latent Space Manipulation [41.79836820271156]
In-Context Brush"は、被写体挿入をカスタマイズするためのゼロショットフレームワークである。オブジェクトイメージとテキストプロンプトをクロスモーダルなデモとして定式化する。目標は、対象画像を、モデルチューニングなしでテキストプロンプトを整列する対象に塗布することである。
論文参考訳（メタデータ） (2025-05-26T17:49:10Z)
Nested Attention: Semantic-aware Attention Values for Concept Personalization [78.90196530697897]
我々はNested Attentionを紹介した。これはモデル内の既存のクロスアテンション層にリッチで表現豊かなイメージ表現を注入する新しいメカニズムである。私たちのキーとなるアイデアは、ネストした注意層から得られたクエリ依存の主観値を生成し、生成した画像の各領域について関連する主観的特徴を選択することである。
論文参考訳（メタデータ） (2025-01-02T18:52:11Z)
Unlocking the Potential of Text-to-Image Diffusion with PAC-Bayesian Theory [33.78620829249978]
テキスト・ツー・イメージ(T2I)拡散モデルは、高忠実で多彩で視覚的にリアルな画像を生成することによって、生成モデルに革命をもたらした。最近の注目度に基づく手法は、オブジェクトの包摂性や言語的バインディングを改善してきたが、それでも属性のミスバインディングのような課題に直面している。そこで,ベイズ的手法を用いて,所望のプロパティを強制するために,注意分布を優先したカスタムプライドを設計する手法を提案する。本手法では,アテンション機構を解釈可能なコンポーネントとして扱い,微粒化制御と属性オブジェクトアライメントの改善を実現している。
論文参考訳（メタデータ） (2024-11-25T10:57:48Z)
EZIGen: Enhancing zero-shot personalized image generation with precise subject encoding and decoupled guidance [20.430259028981094]
EZIGenは、与えられたテキストプロンプトと被写体画像の両方に一致した画像を作成することを目的としている。安定拡散モデルのトレーニング済みUNetをベースとした、慎重に製作された主画像エンコーダである。統一されたモデルと100倍のトレーニングデータを備えた、複数のパーソナライズされた生成ベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2024-09-12T14:44:45Z)
Layout-and-Retouch: A Dual-stage Framework for Improving Diversity in Personalized Image Generation [40.969861849933444]
1)レイアウト生成と2)リタッチの2段階からなる,Layout-and-Retouchと呼ばれる新しいP-T2I手法を提案する。ステップブレンド推論では,バニラT2Iモデル固有のサンプルの多様性を利用して,多様なレイアウト画像を生成する。第2段階では、マルチソースアテンションは、第1ステージからのコンテキスト画像を参照画像に置き換え、コンテキスト画像から構造を活用し、参照画像から視覚的特徴を抽出する。
論文参考訳（メタデータ） (2024-07-13T05:28:45Z)
Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文参考訳（メタデータ） (2024-03-25T17:52:07Z)
Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文参考訳（メタデータ） (2024-02-05T18:42:34Z)
Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文参考訳（メタデータ） (2024-01-30T05:56:12Z)
Instilling Multi-round Thinking to Text-guided Image Generation [72.2032630115201]
シングルラウンド世代は、特に靴やスリーブのようなきめ細かい変更の領域において、重要な詳細を見落としていることが多い。既存の手法と互換性のある,新たな自己監督型正規化,すなわちマルチラウンド正規化を導入する。修正順序が最終結果に概して影響を与えないという観察に基づいている。
論文参考訳（メタデータ） (2024-01-16T16:19:58Z)
Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文参考訳（メタデータ） (2023-12-10T22:07:42Z)
Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文参考訳（メタデータ） (2023-05-30T18:00:06Z)
Unified Multi-Modal Latent Diffusion for Joint Subject and Text Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文参考訳（メタデータ） (2023-03-16T13:50:20Z)
HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文参考訳（メタデータ） (2022-11-11T14:30:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。