論文の概要: DirectSwap: Mask-Free Cross-Identity Training and Benchmarking for Expression-Consistent Video Head Swapping
- arxiv url: http://arxiv.org/abs/2512.09417v1
- Date: Wed, 10 Dec 2025 08:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.448324
- Title: DirectSwap: Mask-Free Cross-Identity Training and Benchmarking for Expression-Consistent Video Head Swapping
- Title(参考訳): DirectSwap: 表現一貫性のあるビデオヘッドスワッピングのためのマスクフリーのクロスアイデンティティトレーニングとベンチマーク
- Authors: Yanan Wang, Shengcai Liao, Panwen Hu, Xin Li, Fan Yang, Xiaodan Liang,
- Abstract要約: ビデオヘッドスワップは、顔のアイデンティティ、頭の形、ヘアスタイルなど、ビデオ対象の頭部全体を参照画像に置き換えることを目的としている。
地対交換データがないため、従来の手法はビデオ内の同一人物のクロスフレームペアをトレーニングする。
我々は、画像U-Netをビデオ拡散モデルに拡張する、マスクのない直接ビデオヘッドスワッピングフレームワークであるDirectSwapを提案する。
- 参考スコア(独自算出の注目度): 58.2549561389375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video head swapping aims to replace the entire head of a video subject, including facial identity, head shape, and hairstyle, with that of a reference image, while preserving the target body, background, and motion dynamics. Due to the lack of ground-truth paired swapping data, prior methods typically train on cross-frame pairs of the same person within a video and rely on mask-based inpainting to mitigate identity leakage. Beyond potential boundary artifacts, this paradigm struggles to recover essential cues occluded by the mask, such as facial pose, expressions, and motion dynamics. To address these issues, we prompt a video editing model to synthesize new heads for existing videos as fake swapping inputs, while maintaining frame-synchronized facial poses and expressions. This yields HeadSwapBench, the first cross-identity paired dataset for video head swapping, which supports both training (\TrainNum{} videos) and benchmarking (\TestNum{} videos) with genuine outputs. Leveraging this paired supervision, we propose DirectSwap, a mask-free, direct video head-swapping framework that extends an image U-Net into a video diffusion model with a motion module and conditioning inputs. Furthermore, we introduce the Motion- and Expression-Aware Reconstruction (MEAR) loss, which reweights the diffusion loss per pixel using frame-difference magnitudes and facial-landmark proximity, thereby enhancing cross-frame coherence in motion and expressions. Extensive experiments demonstrate that DirectSwap achieves state-of-the-art visual quality, identity fidelity, and motion and expression consistency across diverse in-the-wild video scenes. We will release the source code and the HeadSwapBench dataset to facilitate future research.
- Abstract(参考訳): ビデオヘッドスワップの目的は、対象の身体、背景、動きのダイナミクスを保ちながら、顔のアイデンティティ、頭部形状、ヘアスタイルなど、ビデオ対象の頭部全体を基準画像に置き換えることである。
地対交換データがないため、従来の方法はビデオ内の同一人物のクロスフレームペアをトレーニングし、アイデンティティの漏洩を軽減するためにマスクベースの塗り絵に頼っている。
潜在的な境界アーティファクトの他に、このパラダイムは、顔のポーズ、表情、動きのダイナミクスといったマスクによって隠された必須の手がかりの回復に苦慮している。
これらの問題に対処するために、フレーム同期の顔ポーズと表情を維持しながら、既存のビデオの新しいヘッドを偽のスワップ入力として合成するよう、ビデオ編集モデルに促す。
これは、ビデオヘッドスワップのための最初のクロスアイデンティティペアデータセットであるHeadSwapBenchで、トレーニング(\TrainNum{} video)とベンチマーク(\TestNum{} video)の両方をサポートする。
このペアによる監視を活かしたDirectSwapは,イメージU-Netをモーションモジュールとコンディショニング入力を備えたビデオ拡散モデルに拡張する,マスクフリーでダイレクトなビデオヘッドスワッピングフレームワークである。
さらに,フレーム差の大きさと顔とランドマークの近接度を用いて,画素ごとの拡散損失を軽減し,フレーム間のコヒーレンスを向上するMEAR(Motion- and Expression-Aware Reconstruction)の損失を導入する。
広範にわたる実験により、DirectSwapは最先端の視覚的品質、アイデンティティーの忠実さ、そして様々な映像シーンにまたがる動きと表現の一貫性を実現している。
将来の研究を容易にするため、ソースコードとHeadSwapBenchデータセットをリリースします。
関連論文リスト
- Mask-Free Audio-driven Talking Face Generation for Enhanced Visual Quality and Identity Preservation [54.52905471078152]
本研究では,2Dベースの顔編集作業を維持しつつ,マスクレス音声生成手法を提案する。
入力画像を2段階のランドマークベースアプローチを用いて,口を閉じた状態に変換する。
論文 参考訳(メタデータ) (2025-07-28T16:03:36Z) - CanonSwap: High-Fidelity and Consistent Video Face Swapping via Canonical Space Modulation [39.665632874158426]
CanonSwapは、外見情報からモーション情報を分離するビデオフェイススワッピングフレームワークである。
本手法は, 視覚的品質, 時間的整合性, アイデンティティ保存の点で, 既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-07-03T15:03:39Z) - Replace Anyone in Videos [82.37852750357331]
ReplaceAnyoneフレームワークは、複雑な背景を特徴とする、局所的な人間の置換と挿入に焦点を当てたフレームワークである。
我々は,このタスクを,一貫したエンド・ツー・エンドビデオ拡散アーキテクチャを用いて,ポーズガイダンスを用いた画像条件付きビデオ塗装パラダイムとして定式化する。
提案されたReplaceAnyoneは従来の3D-UNetベースモデルだけでなく、Wan2.1のようなDiTベースのビデオモデルにもシームレスに適用できる。
論文 参考訳(メタデータ) (2024-09-30T03:27:33Z) - Siamese Masked Autoencoders [76.35448665609998]
ビデオから視覚的対応を学習するために,Siamese Masked Autoencoders(SiamMAE)を提案する。
SiamMAEはランダムにサンプリングされたビデオフレームのペアで動作し、非対称にそれらをマスクする。
ビデオオブジェクトのセグメンテーション、キーポイントのプロパゲーション、セマンティック部分のプロパゲーションタスクにおいて、最先端の自己管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-05-23T17:59:46Z) - High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。
顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。
我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文 参考訳(メタデータ) (2023-04-20T09:02:41Z) - DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder [55.58582254514431]
そこで本研究では,DAE-Talkerを用いて全映像フレームを合成し,音声の内容に合わせて自然な頭部の動きを生成する。
また、ポーズ制御性のための音声2latentのポーズモデリングも導入する。
実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-30T17:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。