論文の概要: VFace: A Training-Free Approach for Diffusion-Based Video Face Swapping
- arxiv url: http://arxiv.org/abs/2602.07835v1
- Date: Sun, 08 Feb 2026 06:13:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.826297
- Title: VFace: A Training-Free Approach for Diffusion-Based Video Face Swapping
- Title(参考訳): VFace: 拡散型ビデオ顔スワップのトレーニング不要アプローチ
- Authors: Sanoojan Baliah, Yohan Abeysinghe, Rusiru Thushara, Khan Muhammad, Abhinav Dhall, Karthik Nandakumar, Muhammad Haris Khan,
- Abstract要約: VFaceは、ビデオの高品質な顔交換のための訓練不要のプラグアンドプレイ方式である。
拡散モデル上に構築された画像ベースの顔交換アプローチとシームレスに統合することができる。
本手法は時間的一貫性と視覚的忠実度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 48.76390632712573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a training-free, plug-and-play method, namely VFace, for high-quality face swapping in videos. It can be seamlessly integrated with image-based face swapping approaches built on diffusion models. First, we introduce a Frequency Spectrum Attention Interpolation technique to facilitate generation and intact key identity characteristics. Second, we achieve Target Structure Guidance via plug-and-play attention injection to better align the structural features from the target frame to the generation. Third, we present a Flow-Guided Attention Temporal Smoothening mechanism that enforces spatiotemporal coherence without modifying the underlying diffusion model to reduce temporal inconsistencies typically encountered in frame-wise generation. Our method requires no additional training or video-specific fine-tuning. Extensive experiments show that our method significantly enhances temporal consistency and visual fidelity, offering a practical and modular solution for video-based face swapping. Our code is available at https://github.com/Sanoojan/VFace.
- Abstract(参考訳): ビデオにおける高品質な顔交換のための訓練不要なプラグアンドプレイ方式,すなわちVFaceを提案する。
拡散モデル上に構築された画像ベースの顔交換アプローチとシームレスに統合することができる。
まず、周波数スペクトル注意補間手法を導入し、鍵識別特性の生成と無傷化を容易にする。
第2に,プラグイン・アンド・プレイ・アテンション・インジェクションによるターゲット構造誘導を実現し,ターゲットフレームからジェネレーションへの構造的特徴の整合性を向上する。
第3に,フレームワイズで発生する時間的不整合を低減するために,拡散モデルを変更することなく時空間コヒーレンスを強制するフローガイド型注意平滑化機構を提案する。
本手法では、追加のトレーニングやビデオ固有の微調整は不要である。
広汎な実験により,本手法は時間的一貫性と視覚的忠実度を大幅に向上させ,ビデオベースの顔スワップのための実用的でモジュール化されたソリューションを提供する。
私たちのコードはhttps://github.com/Sanoojan/VFace.comで公開されています。
関連論文リスト
- VividFace: High-Quality and Efficient One-Step Diffusion For Video Face Enhancement [51.83206132052461]
ビデオ顔強調(VFE)は、劣化したビデオシーケンスから高品質な顔領域を再構築することを目指している。
ビデオの超解像と生成フレームワークに依存する現在の手法は、3つの根本的な課題に直面している。
ビデオ・フェイス・エンハンスメントのための新規かつ効率的なワンステップ拡散フレームワークであるVividFaceを提案する。
論文 参考訳(メタデータ) (2025-09-28T02:39:48Z) - Stable Video-Driven Portraits [52.008400639227034]
アニメーションは、ドライビングビデオから表現とポーズを再現することで、単一のソースイメージから写真リアルなビデオを生成することを目的としている。
拡散モデルを用いた最近の進歩は品質の向上を示しているが、弱い制御信号やアーキテクチャ上の制約によって制約されている。
本研究では, 眼, 鼻, 口などのマスク付き顔面領域を, 強力な動き制御手段として活用する新しい拡散型枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-22T08:11:08Z) - VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping [43.30061680192465]
ビデオ・フェイス・スワップに特化して設計された初めての拡散型フレームワークを提案する。
提案手法は,VidFaceVAEと組み合わせた特殊設計拡散モデルである。
本フレームワークは,従来の手法と比較して,アイデンティティの保存,時間的整合性,視覚的品質において優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-12-15T18:58:32Z) - HiFiVFS: High Fidelity Video Face Swapping [35.49571526968986]
Face swappingは、ソースからのIDとターゲットからの属性を組み合わせた結果を生成することを目的としている。
安定ビデオ拡散の強い生成能力と時間的先行を生かした高忠実度ビデオ顔交換フレームワークを提案する。
本手法は,映像面スワップにおける最新技術(SOTA)を質的かつ定量的に達成する。
論文 参考訳(メタデータ) (2024-11-27T12:30:24Z) - UniVST: A Unified Framework for Training-free Localized Video Style Transfer [102.52552893495475]
本稿では拡散モデルに基づく局所化ビデオスタイル転送のための統一フレームワークUniVSTを提案する。
トレーニングを必要とせずに動作し、ビデオ全体にわたってスタイルを転送する既存の拡散方法に対して、明確なアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-10-26T05:28:02Z) - TVG: A Training-free Transition Video Generation Method with Diffusion Models [12.037716102326993]
遷移ビデオはメディア制作において重要な役割を担い、視覚的物語の流れとコヒーレンスを高める。
拡散モデルに基づくビデオ生成の最近の進歩は、トランジションを作成する新しい可能性を提供するが、フレーム間の関係モデリングの貧弱や突然のコンテンツ変更といった課題に直面している。
本稿では,これらの制約に対処するビデオレベルの拡散モデルを用いて,新たなトレーニング不要な遷移ビデオ生成(TVG)手法を提案する。
論文 参考訳(メタデータ) (2024-08-24T00:33:14Z) - Kalman-Inspired Feature Propagation for Video Face Super-Resolution [78.84881180336744]
時間前に安定した顔を維持するための新しい枠組みを導入する。
カルマンフィルタの原理は,従来の復元フレームからの情報を用いて,現在のフレームの復元過程をガイドし,調整することができる。
ビデオフレーム間で顔の細部を連続的にキャプチャする手法の有効性を実験により実証した。
論文 参考訳(メタデータ) (2024-08-09T17:57:12Z) - Make-Your-Anchor: A Diffusion-based 2D Avatar Generation Framework [33.46782517803435]
Make-Your-Anchorは、トレーニングのために個人の1分間のビデオクリップだけを必要とするシステムである。
入力ビデオ上に構造誘導拡散モデルを用いて3次元メッシュ条件を人間の外見に表現する。
出力ビデオにおける顔領域の視覚的品質を改善するために、新しい識別特異的顔強調モジュールが導入された。
論文 参考訳(メタデータ) (2024-03-25T07:54:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。