論文の概要: Foundation Cures Personalization: Improving Personalized Models' Prompt Consistency via Hidden Foundation Knowledge
- arxiv url: http://arxiv.org/abs/2411.15277v2
- Date: Fri, 14 Mar 2025 12:22:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:04:02.988585
- Title: Foundation Cures Personalization: Improving Personalized Models' Prompt Consistency via Hidden Foundation Knowledge
- Title(参考訳): ファウンデーションカリキュラム:隠れたファンデーション知識によるパーソナライズされたモデルのプロンプト一貫性の改善
- Authors: Yiyang Cai, Zhengkai Jiang, Yulong Liu, Chunyang Jiang, Wei Xue, Wenhan Luo, Yike Guo,
- Abstract要約: textbfFreeCureはパーソナライゼーションモデルの迅速な一貫性を改善するフレームワークである。
本稿では, 個人化プロセスに適切な属性情報をもたらすための, インバージョンベースのプロセスと合わせて, ファンデーションを意識した新たな自己意識モジュールを提案する。
FreeCureは、さまざまな最先端の顔のパーソナライゼーションモデルに対して、迅速な一貫性を顕著に向上させた。
- 参考スコア(独自算出の注目度): 33.35678923549471
- License:
- Abstract: Facial personalization faces challenges to maintain identity fidelity without disrupting the foundation model's prompt consistency. The mainstream personalization models employ identity embedding to integrate identity information within the cross-attention mechanisms of UNet. However, our preliminary experimental findings reveal that identity embeddings compromise the effectiveness of other tokens in the prompt, thereby limiting high prompt consistency and controllability. Moreover, by deactivating identity embedding, personalization models still demonstrate the underlying foundation models' ability to control facial attributes precisely. It suggests that such foundation models' knowledge can be leveraged to \textbf{cure} the ill-aligned prompt consistency of personalization models. Building upon these insights, we propose \textbf{FreeCure}, a framework that improves the prompt consistency of personalization models with their latent foundation models' knowledge. First, by setting a dual inference paradigm with/without identity embedding, we identify attributes (\textit{e.g.}, hair, accessories, etc.) for enhancements. Second, we introduce a novel foundation-aware self-attention module, coupled with an inversion-based process to bring well-aligned attribute information to the personalization process. Our approach is \textbf{training-free}, and can effectively enhance a wide array of facial attributes in a non-intrusive manner; and it can be seamlessly integrated into existing popular personalization models, without harming their well-trained modules. FreeCure has demonstrated significant improvements in prompt consistency across a diverse set of state-of-the-art facial personalization models while maintaining the integrity of original identity fidelity. The project page is available \href{https://github.com/YIYANGCAI/freecure-project-page}{here}.
- Abstract(参考訳): 顔のパーソナライゼーションは、基礎モデルの迅速な一貫性を損なうことなくアイデンティティの忠実さを維持するという課題に直面している。
主流のパーソナライゼーションモデルは、UNetのクロスアテンションメカニズムにアイデンティティ情報を統合するためにアイデンティティ埋め込みを使用している。
しかし, 予備的な実験結果から, 同一性埋め込みが他のトークンの有効性を損なうことが判明した。
さらに、アイデンティティの埋め込みを非活性化することにより、パーソナライズモデルは、基礎となる基盤モデルの顔属性を正確に制御する能力を示している。
このような基礎モデルの知識は、パーソナライズモデルの不整合性の即時一貫性に活用できることを示唆している。
これらの知見に基づいて, パーソナライズモデルと潜在基盤モデルの知識の迅速な一貫性を向上させるフレームワークである, textbf{FreeCure}を提案する。
まず、ID埋め込みを伴わずにデュアル推論パラダイムを設定することで、属性(\textit{e g }、髪、アクセサリーなど)を識別する。
)であった。
次に, 個人化プロセスに適切な属性情報をもたらすための, インバージョンベースのプロセスと合わせて, ファンデーションを意識した新たな自己意識モジュールを提案する。
我々のアプローチは‘textbf{training-free’であり、非侵襲的な方法で顔属性を効果的に拡張することができ、よく訓練されたモジュールを損なうことなく、既存のパーソナライズモデルにシームレスに統合することができる。
FreeCureは、さまざまな最先端の顔のパーソナライゼーションモデルに対して、元のアイデンティティの完全性を維持しながら、迅速な一貫性を向上した。
プロジェクトページは href{https://github.com/YIYANGCAI/freecure-project-page}{here} で公開されている。
関連論文リスト
- FaceMe: Robust Blind Face Restoration with Personal Identification [27.295878867436688]
拡散モデルに基づく顔復元手法FaceMeを提案する。
1枚または数枚の参照画像が与えられた場合、アイデンティティ関連の特徴を抽出するためにアイデンティティエンコーダを使用し、高品質な顔画像の復元において拡散モデルを導出するためのプロンプトとして機能する。
実験結果から,FaceMeは顔の良質な画像の復元が可能であり,顔認証の整合性を保ち,優れた性能とロバスト性を実現していることがわかった。
論文 参考訳(メタデータ) (2025-01-09T11:52:54Z) - PersonaMagic: Stage-Regulated High-Fidelity Face Customization with Tandem Equilibrium [55.72249032433108]
PersonaMagicは、高忠実な顔のカスタマイズのために設計された、ステージ制御された生成技術である。
本手法は,顔の概念を捉えるために,特定の時間間隔内に一連の埋め込みを学習する。
定性評価と定量的評価の両方において、ペルソナマジックが最先端の手法よりも優れていることを確認する。
論文 参考訳(メタデータ) (2024-12-20T08:41:25Z) - LCM-Lookahead for Encoder-based Text-to-Image Personalization [82.56471486184252]
我々は,テキスト・ツー・イメージ・モデルのパーソナライズを導くために,ショートカット・メカニズムを利用する可能性を探る。
エンコーダをベースとしたパーソナライズ手法に焦点をあてて、ルックアヘッドのアイデンティティ損失を調整することで、より高いアイデンティティの忠実性を達成できることを実証する。
論文 参考訳(メタデータ) (2024-04-04T17:43:06Z) - IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models [31.762112403595612]
IDAdapterは、単一の顔画像からパーソナライズされた画像生成における多様性とアイデンティティの保存を強化する、チューニング不要なアプローチである。
トレーニング期間中、特定のアイデンティティの複数の参照画像から混合した特徴を取り入れ、アイデンティティ関連コンテンツの詳細を充実させる。
論文 参考訳(メタデータ) (2024-03-20T12:13:04Z) - PFStorer: Personalized Face Restoration and Super-Resolution [19.479263766534345]
顔修復の最近の進歩は、高品質でライフスタイルのアウトプットを生み出すことに顕著な成果を上げている。
しかし、驚くべき結果は、モデルに必要なコンテキストが欠如しているため、人のアイデンティティに忠実でないことがしばしばあります。
提案手法では, 個人像を用いて復元モデルをパーソナライズし, 詳細な情報を保持しつつ, 個人像に対して調整した復元を行う。
論文 参考訳(メタデータ) (2024-03-13T11:39:30Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - Personalized Restoration via Dual-Pivot Tuning [18.912158172904654]
そこで我々は、Dual-Pivot Tuningと呼ばれるパーソナライズされた復元方法を提案する。
私たちのキーとなる観察は、最適なパーソナライズのために、生成モデルは固定されたテキストピボットを中心に調整されるべきであるということです。
このアプローチは、パーソナライゼーションが復元プロセスに干渉しないことを保証し、結果として、人物のアイデンティティと劣化した画像の属性に忠実な自然な外観をもたらす。
論文 参考訳(メタデータ) (2023-12-28T18:57:49Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - DreamIdentity: Improved Editability for Efficient Face-identity
Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。
また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。
我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-01T11:01:17Z) - DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven
Text-to-Image Generation [50.39533637201273]
主観駆動型テキスト・ツー・イメージ生成のためのID保存型アンタングル型チューニングフレームワークであるDisenBoothを提案する。
DisenBoothは、ID保存の埋め込みとアイデンティティ関連の埋め込みを組み合わせることで、より世代的柔軟性と制御性を示す。
論文 参考訳(メタデータ) (2023-05-05T09:08:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。