論文の概要: Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter
- arxiv url: http://arxiv.org/abs/2505.18612v1
- Date: Sat, 24 May 2025 09:21:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.546016
- Title: Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter
- Title(参考訳): Mod-Adapter:Modulation Adapterによるチューニングフリーおよびヴァーサタイルマルチコンセプトパーソナライゼーション
- Authors: Weizhi Zhong, Huan Yang, Zheng Liu, Huiguo He, Zijian He, Xuesong Niu, Di Zhang, Guanbin Li,
- Abstract要約: テストタイムの微調整なしにオブジェクトと抽象概念を効果的にカスタマイズできるマルチコンセプトパーソナライズのためのチューニング不要な手法を提案する。
本手法は, 定量的, 質的, 人的評価によって支援された多概念パーソナライゼーションにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 52.08332620725473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized text-to-image generation aims to synthesize images of user-provided concepts in diverse contexts. Despite recent progress in multi-concept personalization, most are limited to object concepts and struggle to customize abstract concepts (e.g., pose, lighting). Some methods have begun exploring multi-concept personalization supporting abstract concepts, but they require test-time fine-tuning for each new concept, which is time-consuming and prone to overfitting on limited training images. In this work, we propose a novel tuning-free method for multi-concept personalization that can effectively customize both object and abstract concepts without test-time fine-tuning. Our method builds upon the modulation mechanism in pretrained Diffusion Transformers (DiTs) model, leveraging the localized and semantically meaningful properties of the modulation space. Specifically, we propose a novel module, Mod-Adapter, to predict concept-specific modulation direction for the modulation process of concept-related text tokens. It incorporates vision-language cross-attention for extracting concept visual features, and Mixture-of-Experts (MoE) layers that adaptively map the concept features into the modulation space. Furthermore, to mitigate the training difficulty caused by the large gap between the concept image space and the modulation space, we introduce a VLM-guided pretraining strategy that leverages the strong image understanding capabilities of vision-language models to provide semantic supervision signals. For a comprehensive comparison, we extend a standard benchmark by incorporating abstract concepts. Our method achieves state-of-the-art performance in multi-concept personalization, supported by quantitative, qualitative, and human evaluations.
- Abstract(参考訳): パーソナライズされたテキスト・ツー・イメージ生成は、多様なコンテキストでユーザが提供する概念のイメージを合成することを目的としている。
近年のマルチコンセプトパーソナライゼーションの進歩にもかかわらず、その多くはオブジェクトの概念に限られており、抽象概念(例えば、ポーズ、照明)をカスタマイズするのに苦労している。
抽象概念をサポートする多概念パーソナライゼーションを探求する手法がいくつかあるが、それらは新しい概念ごとにテストタイムの微調整を必要とする。
本研究では,テストタイムの微調整なしにオブジェクトと抽象概念を効果的にカスタマイズできる,マルチコンセプトパーソナライズのための新しいチューニング不要手法を提案する。
本手法は, 変調空間の局所的および意味論的特性を利用して, 事前学習した拡散変換器(DiT)モデルにおける変調機構を構築する。
具体的には,概念関連テキストトークンの変調プロセスに対して,概念固有の変調方向を予測するモジュールであるMod-Adapterを提案する。
概念的特徴を抽出するための視覚言語横断的意図と、概念的特徴を変調空間に適応的にマッピングするMixture-of-Experts (MoE) レイヤが組み込まれている。
さらに,概念イメージ空間と変調空間の間に大きなギャップがあることから生じるトレーニングの難しさを軽減するために,視覚言語モデルの強い画像理解機能を活用して意味的な監視信号を提供する,VLM誘導事前学習戦略を導入する。
総合的な比較のために、抽象概念を取り入れて標準ベンチマークを拡張する。
本手法は, 定量的, 質的, 人的評価によって支援された多概念パーソナライゼーションにおける最先端性能を実現する。
関連論文リスト
- Modular Customization of Diffusion Models via Blockwise-Parameterized Low-Rank Adaptation [73.16975077770765]
コンセプトのスタイリングやマルチコンセプトのカスタマイズといったアプリケーションには、モジュール化が不可欠である。
インスタントマージ法は、個々のマージされた概念のアイデンティティ損失と干渉を引き起こすことが多い。
個々の概念のアイデンティティを正確に保存しつつ,複数の概念を効率的に組み合わせたインスタントマージ手法であるBlockLoRAを提案する。
論文 参考訳(メタデータ) (2025-03-11T16:10:36Z) - How to Continually Adapt Text-to-Image Diffusion Models for Flexible Customization? [91.49559116493414]
本稿では,CIDM(Concept-Incremental Text-to-image Diffusion Model)を提案する。
破滅的な忘れと概念の無視を解決し、新しいカスタマイズタスクを概念的な方法で学習する。
実験により、CIDMが既存のカスタム拡散モデルを上回ることが確認された。
論文 参考訳(メタデータ) (2024-10-23T06:47:29Z) - Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis [14.21719970175159]
コンセプトコンダクタは、マルチコンセプトのカスタマイズにおいて、視覚的忠実さと正確なレイアウトを保証するように設計されている。
本稿では,各概念の生成領域を特定するために形状認識マスクを用いた概念注入手法を提案する。
本手法は,様々な概念の組み合わせをサポートし,視覚的に類似した概念を扱う場合でも高い忠実性を維持する。
論文 参考訳(メタデータ) (2024-08-07T08:43:58Z) - ConceptExpress: Harnessing Diffusion Models for Single-image Unsupervised Concept Extraction [20.43411883845885]
本研究では,非教師付き概念抽出(UCE)という,概念の人間的知識のない非教師付き概念抽出手法を提案する。
複数の概念を含むイメージを与えられたタスクは、事前訓練された拡散モデルから既存の知識のみに依存する個々の概念を抽出し、再現することを目的としている。
本稿では,事前学習した拡散モデル固有の能力を2つの側面に解き放つことで,UCEに対処するConceptExpressを提案する。
論文 参考訳(メタデータ) (2024-07-09T17:50:28Z) - Non-confusing Generation of Customized Concepts in Diffusion Models [135.4385383284657]
テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚混乱の共通課題に取り組む。
既存のカスタマイズされた生成方法は、第2ステージの微調整のみに焦点を当て、第1ステージを見下ろしている。
本稿では,CLIF(CLIF)と呼ばれる単純かつ効果的な画像言語微調整法を提案する。
論文 参考訳(メタデータ) (2024-05-11T05:01:53Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [59.00909718832648]
マルチコンセプトカスタマイズのための新しいアプローチであるMC$2$を提案する。
視覚的およびテキスト的トークン間の注意重みを適応的に補正することにより、画像領域が関連概念と正確に一致することを保証する。
MC$2$は、即時参照アライメントの観点からトレーニングベースの手法より優れていることを示す実験である。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。