論文の概要: InstaFace: Identity-Preserving Facial Editing with Single Image Inference
- arxiv url: http://arxiv.org/abs/2502.20577v1
- Date: Thu, 27 Feb 2025 22:37:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:42:06.455907
- Title: InstaFace: Identity-Preserving Facial Editing with Single Image Inference
- Title(参考訳): InstaFace: 単一画像推論によるアイデンティティ保護顔編集
- Authors: MD Wahiduzzaman Khan, Mingshan Jia, Shaolin Zhang, En Yu, Kaska Musial-Gabrys,
- Abstract要約: 本稿では,単一の画像のみを用いてアイデンティティを保存しながら,現実的な画像を生成するための,新しい拡散ベースのフレームワークInstaFaceを紹介する。
InstaFaceは、トレーニング可能なパラメータを追加することなく、複数の3DMMベースの条件を統合することで、3Dの視点を活用する。
本手法は, 身元保存, 光リアリズム, ポーズ, 表情, 照明の効果的な制御において, 最先端のアプローチよりも優れている。
- 参考スコア(独自算出の注目度): 3.213962436624666
- License:
- Abstract: Facial appearance editing is crucial for digital avatars, AR/VR, and personalized content creation, driving realistic user experiences. However, preserving identity with generative models is challenging, especially in scenarios with limited data availability. Traditional methods often require multiple images and still struggle with unnatural face shifts, inconsistent hair alignment, or excessive smoothing effects. To overcome these challenges, we introduce a novel diffusion-based framework, InstaFace, to generate realistic images while preserving identity using only a single image. Central to InstaFace, we introduce an efficient guidance network that harnesses 3D perspectives by integrating multiple 3DMM-based conditionals without introducing additional trainable parameters. Moreover, to ensure maximum identity retention as well as preservation of background, hair, and other contextual features like accessories, we introduce a novel module that utilizes feature embeddings from a facial recognition model and a pre-trained vision-language model. Quantitative evaluations demonstrate that our method outperforms several state-of-the-art approaches in terms of identity preservation, photorealism, and effective control of pose, expression, and lighting.
- Abstract(参考訳): 顔の顔の編集は、デジタルアバター、AR/VR、パーソナライズされたコンテンツ作成に不可欠であり、現実的なユーザー体験を促進する。
しかし、生成モデルによるアイデンティティの保存は、特にデータ可用性に制限のあるシナリオでは困難である。
伝統的な方法では複数の画像を必要とすることが多く、不自然な顔のシフト、不整合性毛髪のアライメント、過度な滑らかな効果に苦しむ。
これらの課題を克服するために、単一の画像のみを使用してアイデンティティを保持しながら現実的な画像を生成する新しい拡散ベースのフレームワークInstaFaceを導入する。
InstaFaceの中心に、3DMMに基づく複数の条件を学習パラメータを追加せずに統合することで、3Dの視点を利用する効率的なガイダンスネットワークを導入する。
さらに, 顔認証モデルと事前学習した視覚言語モデルから特徴埋め込みを利用する新しいモジュールを導入する。
定量的評価により, 身元保存, フォトリアリズム, ポーズ, 表情, 照明の効果的な制御において, 提案手法はいくつかの最先端手法より優れていることが示された。
関連論文リスト
- Towards Consistent and Controllable Image Synthesis for Face Editing [18.646961062736207]
RigFaceは、ポートレート写真のライティング、表情、ヘッドポーズを制御する新しいアプローチである。
我々のモデルは、既存の顔編集モデルと比較して、アイデンティティ保存とフォトリアリズムの両方において同等またはそれ以上の性能を達成している。
論文 参考訳(メタデータ) (2025-02-04T16:36:07Z) - Face Anonymization Made Simple [44.24233169815565]
現在の顔の匿名化技術は、しばしば、不正確で信頼性の低い顔認識モデルによって計算されたアイデンティティ損失に依存する。
対照的に,本手法では再建損失のみを伴う拡散モデルを用いて,顔のランドマークやマスクの必要性を排除している。
本モデルは,アイデンティティの匿名化,顔の保存,画質の3つの重要な領域において,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-11-01T17:45:21Z) - Imagine yourself: Tuning-Free Personalized Image Generation [39.63411174712078]
私たちは、パーソナライズされた画像生成用に設計された最先端のモデルであるImagine yourselfを紹介します。
チューニング不要のモデルとして機能し、個別に調整することなく、すべてのユーザが共有フレームワークを活用できる。
我々の研究は、Imagine自身が最先端のパーソナライズモデルを超え、アイデンティティ保存、視覚的品質、テキストアライメントにおいて優れた能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-20T09:21:49Z) - Realistic and Efficient Face Swapping: A Unified Approach with Diffusion Models [69.50286698375386]
フェース・スワッピングのための拡散モデルを改善する新しい手法を提案する。
インペイントトレーニング中にマスクシャッフル技術を導入し、スワップのためのいわゆるユニバーサルモデルを作成することができる。
私たちのアプローチは比較的統一されたアプローチなので、他のオフザシェルフモデルのエラーに対して耐性があります。
論文 参考訳(メタデータ) (2024-09-11T13:43:53Z) - DiffFAE: Advancing High-fidelity One-shot Facial Appearance Editing with Space-sensitive Customization and Semantic Preservation [84.0586749616249]
本稿では,高忠実度顔画像編集に適した1段階かつ高効率な拡散ベースフレームワークDiffFAEを提案する。
高忠実度クエリ属性転送には、空間感性物理カスタマイズ(SPC)を採用し、忠実度と一般化能力を保証している。
ソース属性を保存するために、Regional-responsive Semantic Composition (RSC)を導入する。
このモジュールは、切り離されたソースを無視する特徴を学習するためにガイドされ、髪、服、背景などの非顔的属性からアーティファクトを保存し緩和する。
論文 参考訳(メタデータ) (2024-03-26T12:53:10Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo
Collection [65.92058628082322]
非パラメトリックフェースモデリングは形状仮定なしで画像からのみ3次元フェースを再構成することを目的としている。
本稿では,教師なしのロバストな3次元顔モデリングのための学習・アグリゲート・パーソナライズ・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T03:10:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。