論文の概要: Plug-and-Play Multi-Concept Adaptive Blending for High-Fidelity Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2511.17615v1
- Date: Tue, 18 Nov 2025 12:25:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.29525
- Title: Plug-and-Play Multi-Concept Adaptive Blending for High-Fidelity Text-to-Image Synthesis
- Title(参考訳): 高忠実テキスト・画像合成のためのプラグ・アンド・プレイ多概念適応ブレンディング
- Authors: Young-Beom Woo,
- Abstract要約: 本稿では,高忠実度テキスト・トゥ・イメージ(T2I)生成のためのプラグイン・アンド・プレイマルチコンセプト・ブレンディングを提案する。
本手法は,各パーソナライズされた概念の意図した外観を忠実に反映するために,ガイド付き外観注意を利用する。
また,非個人化領域の整合性を維持するマスク誘導型ノイズミキシング戦略を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integrating multiple personalized concepts into a single image has recently become a significant area of focus within Text-to-Image (T2I) generation. However, existing methods often underperform on complex multi-object scenes due to unintended alterations in both personalized and non-personalized regions. This not only fails to preserve the intended prompt structure but also disrupts interactions among regions, leading to semantic inconsistencies. To address this limitation, we introduce plug-and-play multi-concept adaptive blending for high-fidelity text-to-image synthesis (PnP-MIX), an innovative, tuning-free approach designed to seamlessly embed multiple personalized concepts into a single generated image. Our method leverages guided appearance attention to faithfully reflect the intended appearance of each personalized concept. To further enhance compositional fidelity, we present a mask-guided noise mixing strategy that preserves the integrity of non-personalized regions such as the background or unrelated objects while enabling the precise integration of personalized objects. Finally, to mitigate concept leakage, i.e., the inadvertent leakage of personalized concept features into other regions, we propose background dilution++, a novel strategy that effectively reduces such leakage and promotes accurate localization of features within personalized regions. Extensive experimental results demonstrate that PnP-MIX consistently surpasses existing methodologies in both single- and multi-concept personalization scenarios, underscoring its robustness and superior performance without additional model tuning.
- Abstract(参考訳): 複数のパーソナライズされた概念を単一のイメージに統合することは、最近、テキスト・ツー・イメージ(T2I)生成において重要な焦点となっている。
しかし、既存の手法は、パーソナライズされた領域と非パーソナライズされた領域の両方において意図しない変更により、複雑な多目的シーンにおいて性能が劣ることが多い。
これは意図されたプロンプト構造を保存するだけでなく、領域間の相互作用を妨害し、意味的な矛盾を引き起こす。
この制限に対処するために、複数のパーソナライズされた概念をシームレスに単一の画像に埋め込むために設計された革新的でチューニングのないアプローチである高忠実なテキスト・ツー・イメージ合成(PnP-MIX)のためのプラグイン・アンド・プレイ・マルチコンセプト適応ブレンディングを導入する。
本手法は,各パーソナライズされた概念の意図した外観を忠実に反映するために,ガイド付き外観注意を利用する。
合成忠実度をさらに高めるため,背景や非関連オブジェクトなどの非個人化領域の整合性を維持しつつ,パーソナライズされたオブジェクトの正確な統合を可能にするマスク誘導ノイズ混合戦略を提案する。
最後に、概念リークの軽減、すなわち、パーソナライズされた概念機能の他のリージョンへの不注意なリークを軽減するために、そのようなリークを効果的に低減し、パーソナライズされた領域内の機能の正確なローカライズを促進する新しい戦略であるバックグラウンドディゾリューション++を提案する。
PnP-MIXはシングルコンセプトとマルチコンセプトの両方のパーソナライゼーションシナリオにおいて既存の手法を一貫して上回り、モデルチューニングを伴わずにその堅牢性と優れた性能を実証した。
関連論文リスト
- FocusDPO: Dynamic Preference Optimization for Multi-Subject Personalized Image Generation via Adaptive Focus [10.615833390806486]
多目的パーソナライズされた画像生成は、テスト時間最適化を必要とせず、複数の特定対象を含むカスタマイズされた画像を合成することを目的としている。
動的意味対応と教師あり画像の複雑さに基づいて焦点領域を適応的に識別するフレームワークであるFocusDPOを提案する。
論文 参考訳(メタデータ) (2025-09-01T07:06:36Z) - Modular Customization of Diffusion Models via Blockwise-Parameterized Low-Rank Adaptation [73.16975077770765]
コンセプトのスタイリングやマルチコンセプトのカスタマイズといったアプリケーションには、モジュール化が不可欠である。
インスタントマージ法は、個々のマージされた概念のアイデンティティ損失と干渉を引き起こすことが多い。
個々の概念のアイデンティティを正確に保存しつつ,複数の概念を効率的に組み合わせたインスタントマージ手法であるBlockLoRAを提案する。
論文 参考訳(メタデータ) (2025-03-11T16:10:36Z) - FlipConcept: Tuning-Free Multi-Concept Personalization for Text-to-Image Generation [26.585985828583304]
FlipConceptは、複数のパーソナライズされた概念をシームレスに単一のイメージに統合する新しいアプローチである。
我々は,概念リークを最小限に抑えるために,ガイド付き外観注意,マスク誘導ノイズ混合,背景希釈を導入する。
チューニングを必要とせず、本手法は、単一および複数のパーソナライズされた概念推論において、既存のモデルよりも優れている。
論文 参考訳(メタデータ) (2025-02-21T04:37:18Z) - LoRACLR: Contrastive Adaptation for Customization of Diffusion Models [84.04930416829264]
LoRACLRは、複数のLoRAモデルを単一の統一モデルにマージする、マルチコンセプト画像生成の新しいアプローチである。
LoRACLRは、これらのモデルの重み空間を整列し、マージするために対照的な目的を使い、干渉を最小限にしながら互換性を確保する。
本結果は,複数の概念を正確にマージし,パーソナライズされた画像生成能力を向上する上で,LoRACLRの有効性を強調した。
論文 参考訳(メタデータ) (2024-12-12T18:59:55Z) - MagicFace: Training-free Universal-Style Human Image Customized Synthesis [13.944050414488911]
MagicFaceは、マルチコンセプトのユニバーサルなヒューマンイメージパーソナライズされた合成のためのトレーニング不要の方法である。
私たちの中核となる考え方は、人間が特定の概念を与えられた画像を作成する方法をシミュレートし、まずセマンティックなレイアウトを確立することです。
第1段階では、RSAは遅延画像がすべての参照概念から同時に特徴を問合せすることを可能にする。
論文 参考訳(メタデータ) (2024-08-14T10:08:46Z) - FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。
本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文 参考訳(メタデータ) (2024-07-06T03:35:43Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。