論文の概要: Foundation Cures Personalization: Recovering Facial Personalized Models' Prompt Consistency
- arxiv url: http://arxiv.org/abs/2411.15277v1
- Date: Fri, 22 Nov 2024 15:21:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:21:24.272567
- Title: Foundation Cures Personalization: Recovering Facial Personalized Models' Prompt Consistency
- Title(参考訳): Foundation Cures Personalization: Recovering Recovering Facial Personalized Models' Prompt Consistency
- Authors: Yiyang Cai, Zhengkai Jiang, Yulong Liu, Chunyang Jiang, Wei Xue, Wenhan Luo, Yike Guo,
- Abstract要約: FreeCureは、基礎モデル自体から固有の知識を活用して、パーソナライゼーションモデルの迅速な一貫性を改善する、トレーニング不要のフレームワークである。
パーソナライズモデルの出力における複数の属性を、新しいノイズブリーディング戦略と反転に基づくプロセスによって強化する。
- 参考スコア(独自算出の注目度): 33.35678923549471
- License:
- Abstract: Facial personalization represents a crucial downstream task in the domain of text-to-image generation. To preserve identity fidelity while ensuring alignment with user-defined prompts, current mainstream frameworks for facial personalization predominantly employ identity embedding mechanisms to associate identity information with textual embeddings. However, our experiments show that identity embeddings compromise the effectiveness of other tokens within the prompt, thereby hindering high prompt consistency, particularly when prompts involve multiple facial attributes. Moreover, previous works overlook the fact that their corresponding foundation models hold great potential to generate faces aligning to prompts well and can be easily leveraged to cure these ill-aligned attributes in personalized models. Building upon these insights, we propose FreeCure, a training-free framework that harnesses the intrinsic knowledge from the foundation models themselves to improve the prompt consistency of personalization models. First, by extracting cross-attention and semantic maps from the denoising process of foundation models, we identify easily localized attributes (e.g., hair, accessories, etc). Second, we enhance multiple attributes in the outputs of personalization models through a novel noise-blending strategy coupled with an inversion-based process. Our approach offers several advantages: it eliminates the need for training; it effectively facilitates the enhancement for a wide array of facial attributes in a non-intrusive manner; and it can be seamlessly integrated into existing popular personalization models. FreeCure has demonstrated significant improvements in prompt consistency across a diverse set of state-of-the-art facial personalization models while maintaining the integrity of original identity fidelity.
- Abstract(参考訳): 顔のパーソナライゼーションは、テキスト・ツー・イメージ・ジェネレーションの領域において重要な下流課題である。
ユーザ定義のプロンプトとの整合性を確保しつつアイデンティティの忠実性を維持するため、現在の顔のパーソナライゼーションの主流フレームワークでは、アイデンティティ情報とテキストの埋め込みを関連付けるためのアイデンティティの埋め込み機構が主流である。
しかし,本実験により,他のトークンの有効性が損なわれ,特に複数の顔属性が関与する場合には,高いプロンプト一貫性が阻害されることが示唆された。
さらに、従来の研究は、対応する基礎モデルが、プロンプトに順応する顔を生成する大きな可能性を秘めており、パーソナライズされたモデルにおけるこれらの不整合属性の解決に容易に活用できるという事実を見落としていた。
これらの知見に基づいて,基礎モデル自体から固有の知識を生かし,パーソナライゼーションモデルの迅速な一貫性を向上させるための学習自由フレームワークFreeCureを提案する。
まず, 基礎モデルの認知過程から, 横断的アテンションとセマンティックマップを抽出することにより, 容易に局所化された属性(例えば, 髪, アクセサリーなど)を同定する。
第2に、インバージョンベースプロセスと組み合わせた新しいノイズブロード戦略により、パーソナライズモデルの出力における複数の属性を強化する。
我々のアプローチには、トレーニングの必要性を排除し、非侵襲的な方法で広範囲の顔属性の強化を効果的に促進し、既存のパーソナライズモデルにシームレスに統合できるという利点がある。
FreeCureは、さまざまな最先端の顔のパーソナライゼーションモデルに対して、元のアイデンティティの完全性を維持しながら、迅速な一貫性を向上した。
関連論文リスト
- FaceMe: Robust Blind Face Restoration with Personal Identification [27.295878867436688]
拡散モデルに基づく顔復元手法FaceMeを提案する。
1枚または数枚の参照画像が与えられた場合、アイデンティティ関連の特徴を抽出するためにアイデンティティエンコーダを使用し、高品質な顔画像の復元において拡散モデルを導出するためのプロンプトとして機能する。
実験結果から,FaceMeは顔の良質な画像の復元が可能であり,顔認証の整合性を保ち,優れた性能とロバスト性を実現していることがわかった。
論文 参考訳(メタデータ) (2025-01-09T11:52:54Z) - PersonaMagic: Stage-Regulated High-Fidelity Face Customization with Tandem Equilibrium [55.72249032433108]
PersonaMagicは、高忠実な顔のカスタマイズのために設計された、ステージ制御された生成技術である。
本手法は,顔の概念を捉えるために,特定の時間間隔内に一連の埋め込みを学習する。
定性評価と定量的評価の両方において、ペルソナマジックが最先端の手法よりも優れていることを確認する。
論文 参考訳(メタデータ) (2024-12-20T08:41:25Z) - LCM-Lookahead for Encoder-based Text-to-Image Personalization [82.56471486184252]
我々は,テキスト・ツー・イメージ・モデルのパーソナライズを導くために,ショートカット・メカニズムを利用する可能性を探る。
エンコーダをベースとしたパーソナライズ手法に焦点をあてて、ルックアヘッドのアイデンティティ損失を調整することで、より高いアイデンティティの忠実性を達成できることを実証する。
論文 参考訳(メタデータ) (2024-04-04T17:43:06Z) - IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models [31.762112403595612]
IDAdapterは、単一の顔画像からパーソナライズされた画像生成における多様性とアイデンティティの保存を強化する、チューニング不要なアプローチである。
トレーニング期間中、特定のアイデンティティの複数の参照画像から混合した特徴を取り入れ、アイデンティティ関連コンテンツの詳細を充実させる。
論文 参考訳(メタデータ) (2024-03-20T12:13:04Z) - PFStorer: Personalized Face Restoration and Super-Resolution [19.479263766534345]
顔修復の最近の進歩は、高品質でライフスタイルのアウトプットを生み出すことに顕著な成果を上げている。
しかし、驚くべき結果は、モデルに必要なコンテキストが欠如しているため、人のアイデンティティに忠実でないことがしばしばあります。
提案手法では, 個人像を用いて復元モデルをパーソナライズし, 詳細な情報を保持しつつ, 個人像に対して調整した復元を行う。
論文 参考訳(メタデータ) (2024-03-13T11:39:30Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - Personalized Restoration via Dual-Pivot Tuning [18.912158172904654]
そこで我々は、Dual-Pivot Tuningと呼ばれるパーソナライズされた復元方法を提案する。
私たちのキーとなる観察は、最適なパーソナライズのために、生成モデルは固定されたテキストピボットを中心に調整されるべきであるということです。
このアプローチは、パーソナライゼーションが復元プロセスに干渉しないことを保証し、結果として、人物のアイデンティティと劣化した画像の属性に忠実な自然な外観をもたらす。
論文 参考訳(メタデータ) (2023-12-28T18:57:49Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - DreamIdentity: Improved Editability for Efficient Face-identity
Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。
また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。
我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-01T11:01:17Z) - DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven
Text-to-Image Generation [50.39533637201273]
主観駆動型テキスト・ツー・イメージ生成のためのID保存型アンタングル型チューニングフレームワークであるDisenBoothを提案する。
DisenBoothは、ID保存の埋め込みとアイデンティティ関連の埋め込みを組み合わせることで、より世代的柔軟性と制御性を示す。
論文 参考訳(メタデータ) (2023-05-05T09:08:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。