論文の概要: Controllable and Expressive One-Shot Video Head Swapping
- arxiv url: http://arxiv.org/abs/2506.16852v1
- Date: Fri, 20 Jun 2025 09:01:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.397299
- Title: Controllable and Expressive One-Shot Video Head Swapping
- Title(参考訳): ワンショットビデオヘッドスワッピングの制御
- Authors: Chaonan Ji, Jinwei Qi, Peng Zhang, Bang Zhang, Liefeng Bo,
- Abstract要約: 本稿では,ビデオヘッドスワップのための拡散型多条件制御フレームワークを提案する。
本手法は,人間の頭部を静止画像から動的映像にシームレスに移植し,対象映像の本来の身体と背景を保存する。
実験結果から,本手法はソースポートレートの同一性を保ちながら,シームレスな背景統合に優れることが示された。
- 参考スコア(独自算出の注目度): 22.260212663609497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel diffusion-based multi-condition controllable framework for video head swapping, which seamlessly transplant a human head from a static image into a dynamic video, while preserving the original body and background of target video, and further allowing to tweak head expressions and movements during swapping as needed. Existing face-swapping methods mainly focus on localized facial replacement neglecting holistic head morphology, while head-swapping approaches struggling with hairstyle diversity and complex backgrounds, and none of these methods allow users to modify the transplanted head expressions after swapping. To tackle these challenges, our method incorporates several innovative strategies through a unified latent diffusion paradigm. 1) Identity-preserving context fusion: We propose a shape-agnostic mask strategy to explicitly disentangle foreground head identity features from background/body contexts, combining hair enhancement strategy to achieve robust holistic head identity preservation across diverse hair types and complex backgrounds. 2) Expression-aware landmark retargeting and editing: We propose a disentangled 3DMM-driven retargeting module that decouples identity, expression, and head poses, minimizing the impact of original expressions in input images and supporting expression editing. While a scale-aware retargeting strategy is further employed to minimize cross-identity expression distortion for higher transfer precision. Experimental results demonstrate that our method excels in seamless background integration while preserving the identity of the source portrait, as well as showcasing superior expression transfer capabilities applicable to both real and virtual characters.
- Abstract(参考訳): 本稿では,人間の頭部を静止画像から動的映像にシームレスに移植し,対象映像の本来の体と背景を保存し,必要に応じて頭や動きを微調整する,ビデオヘッドスワップ用拡散型多条件制御フレームワークを提案する。
既存の顔スワッピング法は主に、全身的な頭部形態を無視した局所的な顔置換に焦点を当て、ヘアスタイルの多様性と複雑な背景に苦しむ頭部スワッピングアプローチは、スワップ後に移植された頭部の表情を変更できない。
これらの課題に対処するために、本手法は、統一潜在拡散パラダイムを通じて、いくつかの革新的な戦略を取り入れている。
1) 身元保存型コンテキスト融合: 多様な髪型や複雑な背景にまたがる堅牢な総合的頭部身元保存を実現するために, 背景・身体的文脈から前頭部身元性を明示的に切り離す形状認識型マスク戦略を提案する。
2)表現を意識したランドマーク再ターゲティングと編集: 同一性,表現,頭部ポーズを分離し,入力画像におけるオリジナルの表現の影響を最小限に抑え,表現編集を支援する3DMM駆動再ターゲティングモジュールを提案する。
スケールアウェアな再ターゲット戦略は、高い転送精度のために、クロスアイデンティティ表現歪みを最小限に抑えるためにさらに活用される。
実験により,本手法は,画像の同一性を保ちながら,背景のシームレスな統合に優れており,実物と仮想物の両方に適用できる優れた表現伝達能力を示す。
関連論文リスト
- Zero-Shot Head Swapping in Real-World Scenarios [30.493743596793212]
本稿では,頭部と上半身を含む画像に対して頑健な新しい頭部交換法HIDを提案する。
マスクの自動生成には,頭部と身体のシームレスなブレンドを可能にするIOMaskを導入する。
本研究では,提案手法がヘッドスワップにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-02T11:44:23Z) - GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - Multimodal-driven Talking Face Generation via a Unified Diffusion-based
Generator [29.58245990622227]
マルチモーダル駆動型トーキングフェイス生成(マルチモーダルドリブントーキングフェイスジェネレーション)とは、画像や動画から移動された、あるいはテキストやオーディオから推定される、与えられたポーズ、表情、および視線で肖像画をアニメーションすることを指す。
既存の手法はテキスト・モーダルの可能性を無視し、ジェネレータは主に不安定なGANフレームワークと結合したソース指向の機能パラダイムに従う。
不安定なシーソースタイルの最適化が不要な新しいパラダイムを導出し、単純で安定で効果的なトレーニングと推論スキームを導出する。
論文 参考訳(メタデータ) (2023-05-04T07:01:36Z) - One-Shot High-Fidelity Talking-Head Synthesis with Deformable Neural
Radiance Field [81.07651217942679]
トーキングヘッド生成は、ソース画像の識別情報を保持し、駆動画像の動作を模倣する顔を生成することを目的としている。
我々は高忠実かつ自由視点の対話ヘッド合成を実現するHiDe-NeRFを提案する。
論文 参考訳(メタデータ) (2023-04-11T09:47:35Z) - HS-Diffusion: Semantic-Mixing Diffusion for Head Swapping [150.06405071177048]
ヘッドスワップ(HS-Diffusion)のための意味混合拡散モデルを提案する。
ソース・ヘッドとソース・ボディのセマンティック・レイアウトをブレンドし、その後、セマンティック・レイアウト・ジェネレータによって遷移領域を塗り替える。
画像ベースのヘッドスワップベンチマークを構築し,2つの設計基準を設計する。
論文 参考訳(メタデータ) (2022-12-13T10:04:01Z) - HeadGAN: One-shot Neural Head Synthesis and Editing [70.30831163311296]
HeadGANは、3D顔表現を合成し、任意の参照画像の顔形状に適応するシステムです。
3D顔表現により、圧縮と再構築の効率的な方法、表現とポーズ編集のツールとしてさらに使用できるようになります。
論文 参考訳(メタデータ) (2020-12-15T12:51:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。