論文の概要: DynamicID: Zero-Shot Multi-ID Image Personalization with Flexible Facial Editability
- arxiv url: http://arxiv.org/abs/2503.06505v1
- Date: Sun, 09 Mar 2025 08:16:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:51:49.736613
- Title: DynamicID: Zero-Shot Multi-ID Image Personalization with Flexible Facial Editability
- Title(参考訳): DynamicID:柔軟な顔編集機能を備えたゼロショットマルチID画像パーソナライズ
- Authors: Xirui Hu, Jiahao Wang, Hao Chen, Weizhan Zhang, Benqi Wang, Yikun Li, Haishun Nan,
- Abstract要約: DynamicIDは、デュアルステージトレーニングパラダイムでサポートされているチューニング不要のフレームワークである。
VariFace-10k顔データセットは,それぞれ35種類の顔画像で表現された10k個の個人からなる。
- 参考スコア(独自算出の注目度): 12.692129257068085
- License:
- Abstract: Recent advancements in text-to-image generation have spurred interest in personalized human image generation, which aims to create novel images featuring specific human identities as reference images indicate. Although existing methods achieve high-fidelity identity preservation, they often struggle with limited multi-ID usability and inadequate facial editability. We present DynamicID, a tuning-free framework supported by a dual-stage training paradigm that inherently facilitates both single-ID and multi-ID personalized generation with high fidelity and flexible facial editability. Our key innovations include: 1) Semantic-Activated Attention (SAA), which employs query-level activation gating to minimize disruption to the original model when injecting ID features and achieve multi-ID personalization without requiring multi-ID samples during training. 2) Identity-Motion Reconfigurator (IMR), which leverages contrastive learning to effectively disentangle and re-entangle facial motion and identity features, thereby enabling flexible facial editing. Additionally, we have developed a curated VariFace-10k facial dataset, comprising 10k unique individuals, each represented by 35 distinct facial images. Experimental results demonstrate that DynamicID outperforms state-of-the-art methods in identity fidelity, facial editability, and multi-ID personalization capability.
- Abstract(参考訳): 近年のテキスト・画像生成の進歩は、参照画像が示すように、特定の人物を特徴とする新しい画像を作成することを目的とした、パーソナライズされた人物画像生成への関心を喚起している。
既存の方法は高忠実度ID保存を実現するが、多IDのユーザビリティの制限と顔の編集性に悩まされることがしばしばある。
動的IDは2段階のトレーニングパラダイムでサポートされており、単一のIDと複数のIDをパーソナライズするパーソナライズされた生成を、高い忠実度と柔軟な顔の編集性で本質的に促進する。
私たちの重要なイノベーションは以下のとおりです。
1) セマンティック・アクティベート・アテンション(SAA, Semantic-Activated Attention)は, クエリレベルのアクティベーションゲーティングを用いて, ID特徴を注入する際の元のモデルの破壊を最小化し, トレーニング中にマルチIDサンプルを必要とせずにマルチIDパーソナライズを実現する。
2) コントラスト学習を活用して顔の動きとアイデンティティ機能を効果的に切り離し、再拘束し、フレキシブルな顔編集を可能にするIMR(Identity-Motion Reconfigurator)を開発した。
さらに,35種類の顔画像で表現された10k個の個人からなるVariFace-10k顔データセットを開発した。
実験により、DynamicIDは、アイデンティティの忠実度、顔の編集性、マルチIDのパーソナライズ能力において、最先端の手法よりも優れていることが示された。
関連論文リスト
- InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation [0.0]
InstantFamilyは、ゼロショットマルチID画像生成を実現するために、新しいクロスアテンション機構とマルチモーダル埋め込みスタックを利用するアプローチである。
本手法は,テキスト条件と統合された事前学習された顔認識モデルから,グローバルな特徴とローカルな特徴を活用することにより,IDを効果的に保存する。
論文 参考訳(メタデータ) (2024-04-30T10:16:21Z) - ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving [64.90148669690228]
ConsistentIDは、微細なマルチモーダル顔のプロンプト下での多彩な画像生成のための革新的な手法である。
我々は、50万以上の顔画像を持つ、きめ細かいポートレートデータセットFGIDを提示し、既存の顔データセットよりも多様性と包括性を提供する。
論文 参考訳(メタデータ) (2024-04-25T17:23:43Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models [66.05234562835136]
マルチオブジェクトパーソナライズを可能にする新しいフレームワークである MuDI を提案する。
本研究の主な目的は,セグメンテーションのための基礎モデルによって生成されたセグメンテーションの活用である。
実験結果から,MuDIは同一性ミキシングを伴わずに高品質なパーソナライズされたイメージを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-05T17:45:22Z) - IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models [31.762112403595612]
IDAdapterは、単一の顔画像からパーソナライズされた画像生成における多様性とアイデンティティの保存を強化する、チューニング不要なアプローチである。
トレーニング期間中、特定のアイデンティティの複数の参照画像から混合した特徴を取り入れ、アイデンティティ関連コンテンツの詳細を充実させる。
論文 参考訳(メタデータ) (2024-03-20T12:13:04Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - FaceDancer: Pose- and Occlusion-Aware High Fidelity Face Swapping [62.38898610210771]
そこで我々は,FaceDancerという顔のスワップとID転送のための新しい単一ステージ手法を提案する。
アダプティブ・フィーチャー・フュージョン・アテンション(AFFA)と解釈的特徴類似性規則化(IFSR)の2つの主要なコントリビューションがある。
論文 参考訳(メタデータ) (2022-10-19T11:31:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。