論文の概要: FaceSnap: Enhanced ID-fidelity Network for Tuning-free Portrait Customization
- arxiv url: http://arxiv.org/abs/2602.00627v1
- Date: Sat, 31 Jan 2026 09:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.298376
- Title: FaceSnap: Enhanced ID-fidelity Network for Tuning-free Portrait Customization
- Title(参考訳): FaceSnap: チューニング不要のポートレートカスタマイズのためのID忠実度ネットワーク
- Authors: Benxiang Zhai, Yifang Xu, Guofeng Zhang, Yang Li, Sidan Du,
- Abstract要約: FaceSnapは、単一の推論段階で一貫性のある結果を生成するために、単一の参照イメージのみを必要とする新しい方法である。
新しい顔属性ミキサーは、低レベル特定特徴と高レベル抽象特徴の両方から包括的融合情報を抽出することができる。
ランドマーク予測器は、異なるポーズのランドマークをまたいだ参照IDを保持し、多様な空間制御条件を提供する。
- 参考スコア(独自算出の注目度): 10.500766709949602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benefiting from the significant advancements in text-to-image diffusion models, research in personalized image generation, particularly customized portrait generation, has also made great strides recently. However, existing methods either require time-consuming fine-tuning and lack generalizability or fail to achieve high fidelity in facial details. To address these issues, we propose FaceSnap, a novel method based on Stable Diffusion (SD) that requires only a single reference image and produces extremely consistent results in a single inference stage. This method is plug-and-play and can be easily extended to different SD models. Specifically, we design a new Facial Attribute Mixer that can extract comprehensive fused information from both low-level specific features and high-level abstract features, providing better guidance for image generation. We also introduce a Landmark Predictor that maintains reference identity across landmarks with different poses, providing diverse yet detailed spatial control conditions for image generation. Then we use an ID-preserving module to inject these into the UNet. Experimental results demonstrate that our approach performs remarkably in personalized and customized portrait generation, surpassing other state-of-the-art methods in this domain.
- Abstract(参考訳): テキストと画像の拡散モデルの大幅な進歩から、パーソナライズされた画像生成、特にカスタマイズされた肖像画生成の研究も、最近大きな進歩を遂げている。
しかし、既存の手法では微調整に時間を要するか、一般化性に欠けるか、顔の詳細の忠実さを達成できないかのいずれかである。
これらの問題に対処するため、我々は単一の参照画像のみを必要とする安定拡散(SD)に基づく新しい手法であるFaceSnapを提案し、単一の推論段階で非常に一貫した結果を生成する。
この方法はプラグアンドプレイであり、異なるSDモデルに容易に拡張できる。
具体的には、低レベル特定特徴と高レベル抽象特徴の両方から包括的融合情報を抽出し、画像生成のためのより良いガイダンスを提供する、新しい顔属性ミキサーを設計する。
また、ランドマーク予測器を導入し、異なるポーズでランドマーク間の参照IDを維持し、画像生成のための多様な空間制御条件を提供する。
次に、ID保存モジュールを使用して、それらをUNetに注入します。
実験により,本領域の他の最先端手法を超越した,パーソナライズおよびカスタマイズされたポートレート生成において,本手法が顕著に機能することが確認された。
関連論文リスト
- HiFi-Portrait: Zero-shot Identity-preserved Portrait Generation with High-fidelity Multi-face Fusion [12.382436378979564]
HiFi-Portraitはゼロショットポートレート生成のための高忠実度手法である。
我々の手法は相似性と制御性においてSOTAアプローチを超越している。
論文 参考訳(メタデータ) (2025-12-16T16:17:46Z) - Personalized Face Super-Resolution with Identity Decoupling and Fitting [50.473357681579664]
極端な劣化シナリオでは、重要な属性とID情報が入力画像で著しく失われることが多い。
既存の方法では、そのような条件下で幻覚顔を生成する傾向があり、真のID制約を欠いた復元画像を生成する。
本稿ではIDデカップリング・フィッティング(IDFSR)を用いた新しいFSR手法を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:33:11Z) - Multi-focal Conditioned Latent Diffusion for Person Image Synthesis [59.113899155476005]
遅延拡散モデル(LDM)は高解像度画像生成において強力な機能を示した。
これらの制約に対処する多焦点条件付き潜時拡散法(MCLD)を提案する。
本手法では,顔の同一性やテクスチャ固有の情報を効果的に統合する多焦点条件アグリゲーションモジュールを利用する。
論文 参考訳(メタデータ) (2025-03-19T20:50:10Z) - Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - InstantID: Zero-shot Identity-Preserving Generation in Seconds [21.04236321562671]
我々はID埋め込みのための強力な拡散モデルに基づくソリューションであるInstantIDを紹介する。
我々のプラグイン・アンド・プレイ・モジュールは、1つの顔画像だけで様々なスタイルで画像のパーソナライズ処理を行う。
私たちの仕事はSD1.5やSDXLのような、トレーニング済みのテキストと画像の拡散モデルとシームレスに統合されます。
論文 参考訳(メタデータ) (2024-01-15T07:50:18Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。
我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。
提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-04-14T23:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。