論文の概要: Navigating Large-Pose Challenge for High-Fidelity Face Reenactment with Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2507.16341v1
- Date: Tue, 22 Jul 2025 08:23:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.027597
- Title: Navigating Large-Pose Challenge for High-Fidelity Face Reenactment with Video Diffusion Model
- Title(参考訳): ビデオ拡散モデルによる高忠実度顔再現のための大規模課題の探索
- Authors: Mingtao Guo, Guanyu Xing, Yanci Zhang, Yanli Liu,
- Abstract要約: Face Reenactmentは、駆動ビデオから静的なソースイメージに動きを移すことで、リアルなトーキングヘッドビデオを生成することを目的としている。
大規模なポーズ変化下での高忠実度顔再現のための新しいフレームワークである顔再現ビデオ拡散モデル(FRVD)を提案する。
- 参考スコア(独自算出の注目度): 6.9344574901598595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Face reenactment aims to generate realistic talking head videos by transferring motion from a driving video to a static source image while preserving the source identity. Although existing methods based on either implicit or explicit keypoints have shown promise, they struggle with large pose variations due to warping artifacts or the limitations of coarse facial landmarks. In this paper, we present the Face Reenactment Video Diffusion model (FRVD), a novel framework for high-fidelity face reenactment under large pose changes. Our method first employs a motion extractor to extract implicit facial keypoints from the source and driving images to represent fine-grained motion and to perform motion alignment through a warping module. To address the degradation introduced by warping, we introduce a Warping Feature Mapper (WFM) that maps the warped source image into the motion-aware latent space of a pretrained image-to-video (I2V) model. This latent space encodes rich priors of facial dynamics learned from large-scale video data, enabling effective warping correction and enhancing temporal coherence. Extensive experiments show that FRVD achieves superior performance over existing methods in terms of pose accuracy, identity preservation, and visual quality, especially in challenging scenarios with extreme pose variations.
- Abstract(参考訳): Face Reenactmentは、駆動ビデオから静的なソースイメージに動きを移し、ソースのアイデンティティを保ちながら、リアルなトーキングヘッドビデオを生成することを目的としている。
暗黙のキーポイントまたは明示的なキーポイントに基づく既存の手法は、将来性を示しているが、アーティファクトの変形や粗い顔のランドマークの制限により、大きなポーズのバリエーションに苦慮している。
本稿では,大規模なポーズ変化下での顔再現のための新しいフレームワークである顔再現ビデオ拡散モデル(FRVD)を提案する。
提案手法ではまず,画像から暗黙的な顔のキーポイントを抽出し,微粒な動きを表現し,変形モジュールを介して動きのアライメントを行う。
ワーピングによって生じる劣化に対処するため,ワーピング特徴マップ(WFM)を導入し,予め訓練された画像対ビデオ(I2V)モデルの,歪んだソース画像を動き認識された潜在空間にマッピングする。
この潜伏空間は、大規模なビデオデータから学んだ顔力学の豊富な先行を符号化し、効果的なワープ補正と時間的コヒーレンスの向上を可能にする。
大規模な実験により、FRVDはポーズの精度、アイデンティティの保存、視覚的品質の点で、特に極端なポーズのバリエーションのある挑戦的なシナリオにおいて、既存の手法よりも優れた性能を発揮することが示された。
関連論文リスト
- PEMF-VTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm [21.1235226974745]
Video Virtual Try-onは、ビデオ内の対象人物に参照服をシームレスに転送することを目的としている。
既存の手法は通常、試着領域を定義するために塗装マスクに依存している。
そこで我々は,PEMF-VTO(Point-Enhanced Mask-Free Video Virtual Try-On)を提案する。
論文 参考訳(メタデータ) (2024-12-04T04:24:15Z) - Realistic and Efficient Face Swapping: A Unified Approach with Diffusion Models [69.50286698375386]
フェース・スワッピングのための拡散モデルを改善する新しい手法を提案する。
インペイントトレーニング中にマスクシャッフル技術を導入し、スワップのためのいわゆるユニバーサルモデルを作成することができる。
私たちのアプローチは比較的統一されたアプローチなので、他のオフザシェルフモデルのエラーに対して耐性があります。
論文 参考訳(メタデータ) (2024-09-11T13:43:53Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - DiffusionAct: Controllable Diffusion Autoencoder for One-shot Face Reenactment [34.821255203019554]
ビデオ駆動型ニューラルフェイスの再現は、元の顔のアイデンティティと外観をうまく保存する現実的な顔画像を合成することを目的としている。
拡散確率モデル(DPM)の最近の進歩は、高品質な現実画像の生成を可能にする。
本稿では,拡散モデルのフォトリアリスティック画像生成を利用して,ニューラルフェイスの再現を行う新しい手法であるDiffusionを提案する。
論文 参考訳(メタデータ) (2024-03-25T21:46:53Z) - HyperReenact: One-Shot Reenactment via Jointly Learning to Refine and
Retarget Faces [47.27033282706179]
提案手法は,音源識別のリアルな音声頭部画像を生成することを目的とした,HyperReenactと呼ばれるニューラルフェイス再現法を提案する。
提案手法は, 単発設定(すなわち, 単一音源フレーム)の下で動作し, 被検体固有の微調整を必要とせず, クロスオブジェクトの再現を可能にする。
我々は,VoxCeleb1とVoxCeleb2の標準ベンチマークにおけるいくつかの最先端技術と比較した。
論文 参考訳(メタデータ) (2023-07-20T11:59:42Z) - Controllable One-Shot Face Video Synthesis With Semantic Aware Prior [10.968343822308812]
ワンショットトーキングヘッド合成タスクは、ソースイメージを他のポーズと表現にアニメーションすることを目的としており、これは駆動フレームによって予測される。
近年の手法では,スパースキーポイントから推定される運動場を教師なしの方法で学習することにより,ソースから抽出した外観特徴のゆがみに頼っている。
本稿では,豊かな顔の事前情報を活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-27T19:17:13Z) - High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。
顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。
我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文 参考訳(メタデータ) (2023-04-20T09:02:41Z) - DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder [55.58582254514431]
そこで本研究では,DAE-Talkerを用いて全映像フレームを合成し,音声の内容に合わせて自然な頭部の動きを生成する。
また、ポーズ制御性のための音声2latentのポーズモデリングも導入する。
実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-30T17:18:31Z) - Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-06-27T06:48:15Z) - Realistic Face Reenactment via Self-Supervised Disentangling of Identity
and Pose [23.211318473026243]
本研究では,大量の未収録映像を自然に再現する自己教師型ハイブリッドモデル(DAE-GAN)を提案する。
提案手法は,2つのデフォーミングオートエンコーダと条件生成の最新の進歩を組み合わせたものである。
実験の結果,再現された画像の良好な品質と,同一性間での顔の動きの伝達の柔軟性が示された。
論文 参考訳(メタデータ) (2020-03-29T06:45:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。