論文の概要: Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality
- arxiv url: http://arxiv.org/abs/2512.07951v1
- Date: Mon, 08 Dec 2025 19:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.689931
- Title: Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality
- Title(参考訳): 映像をリアルに保存する:映像品質のための高忠実な顔スワッピング
- Authors: Zekai Luo, Zongze Du, Zhouhang Zhu, Hao Zhong, Muzhi Zhu, Wen Wang, Yuling Xi, Chenchen Jing, Hao Chen, Chunhua Shen,
- Abstract要約: リビングスワップ(LivingSwap)は、最初のビデオ参照ガイド付き顔交換モデルである。
ビデオコンディショニングとビデオレファレンスガイダンスを組み合わせることで、時間的縫合を行い、安定したアイデンティティと高忠実度再構成を実現する。
本手法は,映像の表現,照明,動きとターゲットの同一性を統合し,手動による製作作業を大幅に削減する。
- 参考スコア(独自算出の注目度): 48.231357260785195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video face swapping is crucial in film and entertainment production, where achieving high fidelity and temporal consistency over long and complex video sequences remains a significant challenge. Inspired by recent advances in reference-guided image editing, we explore whether rich visual attributes from source videos can be similarly leveraged to enhance both fidelity and temporal coherence in video face swapping. Building on this insight, this work presents LivingSwap, the first video reference guided face swapping model. Our approach employs keyframes as conditioning signals to inject the target identity, enabling flexible and controllable editing. By combining keyframe conditioning with video reference guidance, the model performs temporal stitching to ensure stable identity preservation and high-fidelity reconstruction across long video sequences. To address the scarcity of data for reference-guided training, we construct a paired face-swapping dataset, Face2Face, and further reverse the data pairs to ensure reliable ground-truth supervision. Extensive experiments demonstrate that our method achieves state-of-the-art results, seamlessly integrating the target identity with the source video's expressions, lighting, and motion, while significantly reducing manual effort in production workflows. Project webpage: https://aim-uofa.github.io/LivingSwap
- Abstract(参考訳): ビデオ・フェイス・スワップは映画やエンターテイメントの制作において不可欠であり、長いビデオ・シーケンスと複雑なビデオ・シーケンスに対して高い忠実さと時間的一貫性を達成することは大きな課題である。
参照誘導画像編集の最近の進歩に触発されて、映像のリッチな視覚特性が、ビデオ顔スワップにおける忠実度と時間的コヒーレンスの両方を高めるために、同様に活用できるかどうかを探る。
この知見に基づいて、この研究は、最初のビデオ参照ガイド付き顔交換モデルであるLivingSwapを提示する。
提案手法では、キーフレームを条件付け信号として、ターゲットのアイデンティティを注入し、フレキシブルかつ制御可能な編集を可能にする。
キーフレームコンディショニングとビデオ参照ガイダンスを組み合わせることで、時間的縫合を行い、安定したアイデンティティ保存と長いビデオシーケンス間の高忠実度再構成を実現する。
基準誘導トレーニングのためのデータの不足に対処するため、ペア化された顔スワッピングデータセットFace2Faceを構築し、さらにデータペアを反転させて、信頼性の高い地道監視を実現する。
大規模な実験により,本手法は,映像の表現,照明,動きをシームレスに統合し,生産ワークフローにおける手作業の大幅な削減を図った。
プロジェクトWebページ: https://aim-uofa.github.io/LivingSwap
関連論文リスト
- Identity-Preserving Image-to-Video Generation via Reward-Guided Optimization [38.70220886362519]
画像間(I2V)生成のためのIPRO(Identity-Preserving Reward-guided Optimization)を提案する。
IPROは、アイデンティティ保護を強化するための強化学習に基づく、新しいビデオ拡散フレームワークである。
提案手法は,サンプリングチェーンの最後のステップを通じて報酬信号をバックプロパゲートし,よりリッチなフィードバックを可能にする。
論文 参考訳(メタデータ) (2025-10-16T03:13:47Z) - VividFace: High-Quality and Efficient One-Step Diffusion For Video Face Enhancement [51.83206132052461]
ビデオ顔強調(VFE)は、劣化したビデオシーケンスから高品質な顔領域を再構築することを目指している。
ビデオの超解像と生成フレームワークに依存する現在の手法は、3つの根本的な課題に直面している。
ビデオ・フェイス・エンハンスメントのための新規かつ効率的なワンステップ拡散フレームワークであるVividFaceを提案する。
論文 参考訳(メタデータ) (2025-09-28T02:39:48Z) - From Large Angles to Consistent Faces: Identity-Preserving Video Generation via Mixture of Facial Experts [69.44297222099175]
顔の特徴の異なるが相互に強化された側面を捉えた顔専門家の混合(MoFE)を導入する。
データセットの制限を軽減するため、私たちは、Face ConstraintsとIdentity Consistencyという2つの重要な側面を中心としたデータ処理パイプラインを調整しました。
我々は、既存のオープンソースヒューマンビデオデータセットからLFA(Large Face Angles)データセットをキュレートし、洗練しました。
論文 参考訳(メタデータ) (2025-08-13T04:10:16Z) - VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping [43.30061680192465]
ビデオ・フェイス・スワップに特化して設計された初めての拡散型フレームワークを提案する。
提案手法は,VidFaceVAEと組み合わせた特殊設計拡散モデルである。
本フレームワークは,従来の手法と比較して,アイデンティティの保存,時間的整合性,視覚的品質において優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-12-15T18:58:32Z) - PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.21554597804604]
カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
鍵となる課題は、元の動きのダイナミックさとセマンティックスを保ちながら、ハイIDの忠実さを一貫して維持することである。
我々は、合成ビデオに報酬監督の混合を適用する、$textbfPersonalVideo$と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-26T02:25:38Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。