Fugu-MT 論文翻訳(概要): VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping

論文の概要: VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping

arxiv url: http://arxiv.org/abs/2412.11279v1
Date: Sun, 15 Dec 2024 18:58:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:50:00.10961
Title: VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping
Title（参考訳）: VividFace: 高忠実度ビデオ顔スワッピングのための拡散ベースのハイブリッドフレームワーク
Authors: Hao Shao, Shulun Wang, Yang Zhou, Guanglu Song, Dailan He, Shuo Qin, Zhuofan Zong, Bingqi Ma, Yu Liu, Hongsheng Li,
Abstract要約: ビデオ・フェイス・スワップに特化して設計された初めての拡散型フレームワークを提案する。提案手法は,VidFaceVAEと組み合わせた特殊設計拡散モデルである。本フレームワークは,従来の手法と比較して,アイデンティティの保存,時間的整合性,視覚的品質において優れた性能を発揮する。
参考スコア（独自算出の注目度）: 43.30061680192465
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video face swapping is becoming increasingly popular across various applications, yet existing methods primarily focus on static images and struggle with video face swapping because of temporal consistency and complex scenarios. In this paper, we present the first diffusion-based framework specifically designed for video face swapping. Our approach introduces a novel image-video hybrid training framework that leverages both abundant static image data and temporal video sequences, addressing the inherent limitations of video-only training. The framework incorporates a specially designed diffusion model coupled with a VidFaceVAE that effectively processes both types of data to better maintain temporal coherence of the generated videos. To further disentangle identity and pose features, we construct the Attribute-Identity Disentanglement Triplet (AIDT) Dataset, where each triplet has three face images, with two images sharing the same pose and two sharing the same identity. Enhanced with a comprehensive occlusion augmentation, this dataset also improves robustness against occlusions. Additionally, we integrate 3D reconstruction techniques as input conditioning to our network for handling large pose variations. Extensive experiments demonstrate that our framework achieves superior performance in identity preservation, temporal consistency, and visual quality compared to existing methods, while requiring fewer inference steps. Our approach effectively mitigates key challenges in video face swapping, including temporal flickering, identity preservation, and robustness to occlusions and pose variations.
Abstract（参考訳）: ビデオフェイススワップは様々なアプリケーションで人気が高まりつつあるが、既存の手法は主に静的画像に焦点を当て、時間的一貫性と複雑なシナリオのためにビデオフェイススワップに苦労している。本稿では,ビデオフェーススワップに特化して設計された,初めての拡散型フレームワークを提案する。提案手法では,静止画像データと時間的映像シーケンスの両方を利用して,映像のみのトレーニングに固有の制約に対処する,新しい画像-ビデオハイブリッドトレーニングフレームワークを提案する。このフレームワークには特別な設計の拡散モデルとVidFaceVAEが組み込まれており、両方のタイプのデータを効果的に処理し、生成されたビデオの時間的コヒーレンスをよりよく維持する。そこでは,各トリプレットが3つの顔画像を持ち,2つの画像が同一のポーズを共有し,2つの画像が同一のアイデンティティを共有する属性・アイデンティティ・ディスタングル・トリプレット(AIDT)データセットを構築した。包括的な閉塞拡大によって強化されたこのデータセットは、閉塞に対する堅牢性も向上する。さらに,大規模なポーズ変動を扱うために,入力条件として3次元再構成技術を統合した。大規模な実験により,本フレームワークは従来の手法と比較して,アイデンティティの保存,時間的一貫性,視覚的品質に優れ,推論ステップは少ないことがわかった。提案手法は,時間的フリッカリング,アイデンティティの保存,オクルージョンに対する堅牢性,バリエーションの出現など,ビデオ面スワップにおける重要な課題を効果的に軽減する。

関連論文リスト

Subject-driven Video Generation via Disentangled Identity and Motion [52.54835936914813]
本稿では,ゼロショットにおける時間的ダイナミクスから被験者固有の学習を分離し,追加のチューニングを伴わずに,主題駆動のカスタマイズビデオ生成モデルを訓練することを提案する。提案手法は、ゼロショット設定で既存のビデオカスタマイズモデルよりも優れた、強力な被写体整合性とスケーラビリティを実現する。
論文参考訳（メタデータ） (2025-04-23T06:48:31Z)
FantasyID: Face Knowledge Enhanced ID-Preserving Video Generation [12.894864326299544]
拡散変換器(DiT)上に構築された事前学習ビデオモデルの顔知識を強化することで、新しいチューニング不要なPT2Vフレームワークを提案する。本研究では拡散変圧器(DiT)上に構築された事前学習ビデオモデルの顔知識を強化することで、新しいチューニング不要なPT2Vフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-19T06:50:27Z)
EchoVideo: Identity-Preserving Human Video Generation by Multimodal Feature Fusion [3.592206475366951]
既存の手法は「コピー・ペースト」アーティファクトと類似性の低い問題に苦しむ。テキストから高レベルなセマンティック機能を統合して、クリーンな顔認証表現をキャプチャするEchoVideoを提案する。高品質で制御性があり、忠実なビデオを生成するのに優れた結果をもたらす。
論文参考訳（メタデータ） (2025-01-23T08:06:11Z)
HiFiVFS: High Fidelity Video Face Swapping [35.49571526968986]
Face swappingは、ソースからのIDとターゲットからの属性を組み合わせた結果を生成することを目的としている。安定ビデオ拡散の強い生成能力と時間的先行を生かした高忠実度ビデオ顔交換フレームワークを提案する。本手法は,映像面スワップにおける最新技術(SOTA)を質的かつ定量的に達成する。
論文参考訳（メタデータ） (2024-11-27T12:30:24Z)
Towards High-Fidelity 3D Portrait Generation with Rich Details by Cross-View Prior-Aware Diffusion [63.81544586407943]
シングルイメージの3Dポートレート生成法は通常、多視点の知識を提供するために2次元拡散モデルを使用し、それを3次元表現に蒸留する。本稿では,複数ビュー画像の状態の整合性を高める条件として,複数ビュー先行を明示的かつ暗黙的に組み込んだハイブリッド優先ディフジョンモデルを提案する。実験により,1枚の画像から正確な幾何学的,詳細な3次元像を作成できることが示された。
論文参考訳（メタデータ） (2024-11-15T17:19:18Z)
Kalman-Inspired Feature Propagation for Video Face Super-Resolution [78.84881180336744]
時間前に安定した顔を維持するための新しい枠組みを導入する。カルマンフィルタの原理は,従来の復元フレームからの情報を用いて,現在のフレームの復元過程をガイドし,調整することができる。ビデオフレーム間で顔の細部を連続的にキャプチャする手法の有効性を実験により実証した。
論文参考訳（メタデータ） (2024-08-09T17:57:12Z)
VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。 SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。 VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文参考訳（メタデータ） (2024-05-28T13:18:32Z)
Make-Your-Anchor: A Diffusion-based 2D Avatar Generation Framework [33.46782517803435]
Make-Your-Anchorは、トレーニングのために個人の1分間のビデオクリップだけを必要とするシステムである。入力ビデオ上に構造誘導拡散モデルを用いて3次元メッシュ条件を人間の外見に表現する。出力ビデオにおける顔領域の視覚的品質を改善するために、新しい識別特異的顔強調モジュールが導入された。
論文参考訳（メタデータ） (2024-03-25T07:54:18Z)
StyleFaceV: Face Video Generation via Decomposing and Recomposing Pretrained StyleGAN3 [43.43545400625567]
そこで我々は,鮮明な動きを持つ高忠実度ID保存顔ビデオを生成するStyleFaceVというフレームワークを提案する。我々の中核となる洞察は、外観を分解し、情報を合成し、それらをStyleGAN3の潜在空間に再分解することで、安定的でダイナミックな結果を生み出すことである。
論文参考訳（メタデータ） (2022-08-16T17:47:03Z)
UniFaceGAN: A Unified Framework for Temporally Consistent Facial Video Editing [78.26925404508994]
我々は,UniFaceGANと呼ばれる時間的に一貫した顔画像編集フレームワークを提案する。本フレームワークは,顔交換と顔再現を同時に行うように設計されている。現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文参考訳（メタデータ） (2021-08-12T10:35:22Z)
DeepFaceFlow: In-the-wild Dense 3D Facial Motion Estimation [56.56575063461169]
DeepFaceFlowは、3D非剛体顔の流れを推定するための堅牢で高速で高精度なフレームワークである。私たちのフレームワークは、2つの非常に大規模な顔ビデオデータセットでトレーニングされ、テストされました。登録された画像に対して,60fpsで3次元フローマップを生成する。
論文参考訳（メタデータ） (2020-05-14T23:56:48Z)
Realistic Face Reenactment via Self-Supervised Disentangling of Identity and Pose [23.211318473026243]
本研究では,大量の未収録映像を自然に再現する自己教師型ハイブリッドモデル(DAE-GAN)を提案する。提案手法は,2つのデフォーミングオートエンコーダと条件生成の最新の進歩を組み合わせたものである。実験の結果,再現された画像の良好な品質と,同一性間での顔の動きの伝達の柔軟性が示された。
論文参考訳（メタデータ） (2020-03-29T06:45:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。