論文の概要: DynaIP: Dynamic Image Prompt Adapter for Scalable Zero-shot Personalized Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2512.09814v1
- Date: Wed, 10 Dec 2025 16:34:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.598843
- Title: DynaIP: Dynamic Image Prompt Adapter for Scalable Zero-shot Personalized Text-to-Image Generation
- Title(参考訳): DynaIP: スケーラブルゼロショットパーソナライズされたテキスト・ツー・イメージ生成のためのダイナミック・イメージ・プロンプト・アダプタ
- Authors: Zhizhong Wang, Tianyi Chu, Zeyi Huang, Nanyang Wang, Kehan Li,
- Abstract要約: DynaIP は、PT2I 生成用SOTA T2I の微細な概念忠実度、CP-PF バランス、および対象スケーラビリティを高めるための最先端プラグインである。
我々の重要な発見は、MM-DiTが2つの枝に参照画像特徴を注入する際に本質的に非結合的な学習行動を示すことである。
本稿では,CLIPの階層的特徴をフル活用するために,新しい階層型混合機能融合モジュールを提案する。
- 参考スコア(独自算出の注目度): 15.795759194499881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalized Text-to-Image (PT2I) generation aims to produce customized images based on reference images. A prominent interest pertains to the integration of an image prompt adapter to facilitate zero-shot PT2I without test-time fine-tuning. However, current methods grapple with three fundamental challenges: 1. the elusive equilibrium between Concept Preservation (CP) and Prompt Following (PF), 2. the difficulty in retaining fine-grained concept details in reference images, and 3. the restricted scalability to extend to multi-subject personalization. To tackle these challenges, we present Dynamic Image Prompt Adapter (DynaIP), a cutting-edge plugin to enhance the fine-grained concept fidelity, CP-PF balance, and subject scalability of SOTA T2I multimodal diffusion transformers (MM-DiT) for PT2I generation. Our key finding is that MM-DiT inherently exhibit decoupling learning behavior when injecting reference image features into its dual branches via cross attentions. Based on this, we design an innovative Dynamic Decoupling Strategy that removes the interference of concept-agnostic information during inference, significantly enhancing the CP-PF balance and further bolstering the scalability of multi-subject compositions. Moreover, we identify the visual encoder as a key factor affecting fine-grained CP and reveal that the hierarchical features of commonly used CLIP can capture visual information at diverse granularity levels. Therefore, we introduce a novel Hierarchical Mixture-of-Experts Feature Fusion Module to fully leverage the hierarchical features of CLIP, remarkably elevating the fine-grained concept fidelity while also providing flexible control of visual granularity. Extensive experiments across single- and multi-subject PT2I tasks verify that our DynaIP outperforms existing approaches, marking a notable advancement in the field of PT2l generation.
- Abstract(参考訳): パーソナライズされたテキスト・ツー・イメージ(PT2I)生成は、参照画像に基づいてカスタマイズされた画像を作成することを目的としている。
テストタイムの微調整なしにゼロショットPT2Iを容易にするためのイメージプロンプトアダプタの統合に注目が集まる。
しかし、現在の手法には3つの根本的な課題がある。
1. 概念保存(CP)とプロンプト追従(PF)の溶出平衡
2.参照画像におけるきめ細かい概念の詳細を維持することの難しさ、及び
3. マルチオブジェクトパーソナライゼーションに拡張するスケーラビリティの制限。
これらの課題に対処するため,我々は,PT2I 生成用 SOTA T2I マルチモーダル拡散変換器 (MM-DiT) の微細な概念忠実度,CP-PF バランス,対象スケーラビリティを向上させる,最先端のプラグインである Dynamic Image Prompt Adapter (DynaIP) を提案する。
我々の重要な発見は、MM-DiTが本質的に二重枝に参照画像特徴を注入する際の非結合学習行動を示すことである。
提案手法は,推論中の概念に依存しない情報の干渉を取り除き,CP-PFバランスを大幅に向上し,マルチオブジェクト合成のスケーラビリティを向上する,革新的な動的デカップリング戦略を設計する。
さらに、視覚エンコーダを細粒度CPに影響を及ぼす重要な要因として同定し、一般的なCLIPの階層的特徴が様々な粒度レベルで視覚情報を捕捉できることを明らかにする。
そこで我々は,CLIPの階層的特徴を完全に活用する新しい階層的混合機能融合モジュールを導入し,その微細な概念の忠実度を著しく高めつつ,視覚的粒度を柔軟に制御する。
単目的と多目的のPT2Iタスクにわたる大規模な実験により、我々のDynaIPは既存のアプローチよりも優れており、PT2l生成の分野における顕著な進歩を示している。
関連論文リスト
- LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer [32.9330637921386]
LAMICはレイアウト対応のマルチイメージコンポジションフレームワークである。
単一の参照拡散モデルをトレーニング不要な方法でマルチ参照シナリオに拡張する。
ID-S、BG-S、IN-R、AVGのスコアにおいて、既存のマルチ参照ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-08-01T09:51:54Z) - CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。
これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。
まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。
第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文 参考訳(メタデータ) (2025-04-02T03:22:36Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Prior-guided Hierarchical Harmonization Network for Efficient Image Dehazing [50.92820394852817]
画像復調のためのtextitPrior-textitguided textitHarmonization Network (PGH$2$Net) を提案する。
PGH$2$Netは、2つのモジュールタイプからなる効率的なエンコーダとデコーダを備えたUNetのようなアーキテクチャ上に構築されている。
論文 参考訳(メタデータ) (2025-03-03T03:36:30Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - ResT: An Efficient Transformer for Visual Recognition [5.807423409327807]
本稿では、画像認識のための汎用バックボーンとして機能する、ResTと呼ばれる効率的なマルチスケール視覚変換器を提案する。
提案したResTは、最近の最先端のバックボーンよりも大きなマージンで、ResTの強力なバックボーンとしての可能性を示している。
論文 参考訳(メタデータ) (2021-05-28T08:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。