論文の概要: FantasyID: Face Knowledge Enhanced ID-Preserving Video Generation
- arxiv url: http://arxiv.org/abs/2502.13995v1
- Date: Wed, 19 Feb 2025 06:50:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:21:30.394888
- Title: FantasyID: Face Knowledge Enhanced ID-Preserving Video Generation
- Title(参考訳): FantasyID:顔認識によるID保存ビデオ生成
- Authors: Yunpeng Zhang, Qiang Wang, Fan Jiang, Yaqi Fan, Mu Xu, Yonggang Qi,
- Abstract要約: 拡散変換器(DiT)上に構築された事前学習ビデオモデルの顔知識を強化することで、新しいチューニング不要なPT2Vフレームワークを提案する。
本研究では拡散変圧器(DiT)上に構築された事前学習ビデオモデルの顔知識を強化することで、新しいチューニング不要なPT2Vフレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.894864326299544
- License:
- Abstract: Tuning-free approaches adapting large-scale pre-trained video diffusion models for identity-preserving text-to-video generation (IPT2V) have gained popularity recently due to their efficacy and scalability. However, significant challenges remain to achieve satisfied facial dynamics while keeping the identity unchanged. In this work, we present a novel tuning-free IPT2V framework by enhancing face knowledge of the pre-trained video model built on diffusion transformers (DiT), dubbed FantasyID. Essentially, 3D facial geometry prior is incorporated to ensure plausible facial structures during video synthesis. To prevent the model from learning copy-paste shortcuts that simply replicate reference face across frames, a multi-view face augmentation strategy is devised to capture diverse 2D facial appearance features, hence increasing the dynamics over the facial expressions and head poses. Additionally, after blending the 2D and 3D features as guidance, instead of naively employing cross-attention to inject guidance cues into DiT layers, a learnable layer-aware adaptive mechanism is employed to selectively inject the fused features into each individual DiT layers, facilitating balanced modeling of identity preservation and motion dynamics. Experimental results validate our model's superiority over the current tuning-free IPT2V methods.
- Abstract(参考訳): 近年,IPT2V(ID保存テキスト・ツー・ビデオ・ジェネレーション)のために,大規模な事前学習ビデオ拡散モデルを適用したチューニング不要な手法が普及している。
しかし、そのアイデンティティを一定に保ちながら、満足度の高い顔のダイナミクスを実現するための重要な課題が残っている。
本稿では,FantasyIDと呼ばれる拡散トランスフォーマー(DiT)上に構築された事前学習ビデオモデルの顔知識を強化することで,新しいチューニング不要なPT2Vフレームワークを提案する。
基本的には、3次元顔形状は、ビデオ合成中の可塑性顔構造を保証するために組み込まれている。
フレーム間の参照顔の複製を簡易に行うコピーペーストショートカットの学習を防止するため、多視点顔増強戦略を考案し、多様な2次元顔の外観特徴を捉えることにより、表情や頭部のポーズに対するダイナミクスを増大させる。
さらに、2Dと3Dの機能をガイダンスとしてブレンドした上で、DiT層に誘導キューを注入するために相互注意を用いる代わりに、各DiT層に融合した特徴を選択的に注入する学習可能な層対応機構を採用し、ID保存とモーションダイナミクスのバランスの取れたモデリングを容易にする。
実験により,現行の無調波IPT2V法よりもモデルの方が優れていることを確認した。
関連論文リスト
- VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping [43.30061680192465]
ビデオ・フェイス・スワップに特化して設計された初めての拡散型フレームワークを提案する。
提案手法は,VidFaceVAEと組み合わせた特殊設計拡散モデルである。
本フレームワークは,従来の手法と比較して,アイデンティティの保存,時間的整合性,視覚的品質において優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-12-15T18:58:32Z) - HiFiVFS: High Fidelity Video Face Swapping [35.49571526968986]
Face swappingは、ソースからのIDとターゲットからの属性を組み合わせた結果を生成することを目的としている。
安定ビデオ拡散の強い生成能力と時間的先行を生かした高忠実度ビデオ顔交換フレームワークを提案する。
本手法は,映像面スワップにおける最新技術(SOTA)を質的かつ定量的に達成する。
論文 参考訳(メタデータ) (2024-11-27T12:30:24Z) - Identity-Preserving Text-to-Video Generation by Frequency Decomposition [52.19475797580653]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
本稿では,PT2Vの技術フロンティアを,文献で未解決の2つの方向に推し進める。
本研究では,DiTをベースとした制御可能なPT2VモデルであるConsisIDを提案する。
論文 参考訳(メタデータ) (2024-11-26T13:58:24Z) - Make-Your-Anchor: A Diffusion-based 2D Avatar Generation Framework [33.46782517803435]
Make-Your-Anchorは、トレーニングのために個人の1分間のビデオクリップだけを必要とするシステムである。
入力ビデオ上に構造誘導拡散モデルを用いて3次元メッシュ条件を人間の外見に表現する。
出力ビデオにおける顔領域の視覚的品質を改善するために、新しい識別特異的顔強調モジュールが導入された。
論文 参考訳(メタデータ) (2024-03-25T07:54:18Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - FitDiff: Robust monocular 3D facial shape and reflectance estimation using Diffusion Models [79.65289816077629]
拡散型3次元顔アバター生成モデルFitDiffを提案する。
本モデルでは,「近距離」2次元顔画像から抽出したアイデンティティ埋め込みを利用して,再現性のある顔アバターを高精度に生成する。
FitDiffは、顔認識の埋め込みを前提とした最初の3D LDMであり、一般的なレンダリングエンジンで使用可能な、ライティング可能な人間のアバターを再構築する。
論文 参考訳(メタデータ) (2023-12-07T17:35:49Z) - One-Shot High-Fidelity Talking-Head Synthesis with Deformable Neural
Radiance Field [81.07651217942679]
トーキングヘッド生成は、ソース画像の識別情報を保持し、駆動画像の動作を模倣する顔を生成することを目的としている。
我々は高忠実かつ自由視点の対話ヘッド合成を実現するHiDe-NeRFを提案する。
論文 参考訳(メタデータ) (2023-04-11T09:47:35Z) - DotFAN: A Domain-transferred Face Augmentation Network for Pose and
Illumination Invariant Face Recognition [94.96686189033869]
本稿では,3次元モデルを用いたドメイン転送型顔強調ネットワーク(DotFAN)を提案する。
DotFANは、他のドメインから収集された既存のリッチフェイスデータセットから抽出された知識に基づいて、入力顔の一連の変種を生成することができる。
実験によると、DotFANは、クラス内の多様性を改善するために、小さな顔データセットを増やすのに有益である。
論文 参考訳(メタデータ) (2020-02-23T08:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。