論文の概要: GaussianSwap: Animatable Video Face Swapping with 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2601.05511v1
- Date: Fri, 09 Jan 2026 03:39:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.832083
- Title: GaussianSwap: Animatable Video Face Swapping with 3D Gaussian Splatting
- Title(参考訳): ガウシアン・スワップ:3Dガウシアン・スプレイティングで撮影できる動画
- Authors: Xuan Cheng, Jiahao Rao, Chengyang Li, Wenhao Wang, Weilin Chen, Lvqing Yang,
- Abstract要約: 対象映像から3次元ガウススプラッティングに基づく顔アバターを構築するための映像顔交換フレームワークを提案する。
結果として得られるスワップされた顔は、アニメーションやインタラクティブな操作の能力のない、構造化されていないピクセルのセットとして存在するだけである。
- 参考スコア(独自算出の注目度): 15.546712348750425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce GaussianSwap, a novel video face swapping framework that constructs a 3D Gaussian Splatting based face avatar from a target video while transferring identity from a source image to the avatar. Conventional video swapping frameworks are limited to generating facial representations in pixel-based formats. The resulting swapped faces exist merely as a set of unstructured pixels without any capacity for animation or interactive manipulation. Our work introduces a paradigm shift from conventional pixel-based video generation to the creation of high-fidelity avatar with swapped faces. The framework first preprocesses target video to extract FLAME parameters, camera poses and segmentation masks, and then rigs 3D Gaussian splats to the FLAME model across frames, enabling dynamic facial control. To ensure identity preserving, we propose an compound identity embedding constructed from three state-of-the-art face recognition models for avatar finetuning. Finally, we render the face-swapped avatar on the background frames to obtain the face-swapped video. Experimental results demonstrate that GaussianSwap achieves superior identity preservation, visual clarity and temporal consistency, while enabling previously unattainable interactive applications.
- Abstract(参考訳): 本稿では,ガウシアン・スワップ(Gaussian Swap)について紹介する。ガウシアン・スワップ(Gaussian Swap)は3Dガウシアン・スワッティングをベースとした顔アバターをターゲット映像から構築し,音源画像からアバターへアイデンティティを転送する。
従来のビデオスワップフレームワークは、ピクセルベースのフォーマットで表情を生成することに限定されている。
結果として得られるスワップされた顔は、アニメーションやインタラクティブな操作の能力のない、構造化されていないピクセルのセットとして存在するだけである。
本研究は,従来の画素ベースの映像生成から,顔交換による高忠実度アバター作成へのパラダイムシフトを紹介する。
このフレームワークは、まずターゲットビデオを前処理し、FLAMEパラメータ、カメラポーズ、セグメンテーションマスクを抽出し、フレーム間で3DガウスプレートをFLAMEモデルにリグし、動的顔制御を可能にする。
アバターファインタニングのための3つの最先端顔認識モデルから構築した複合ID埋め込みを提案する。
最後に、背景フレームにフェイススワップされたアバターを描画して、フェイススワップされたビデオを得る。
実験結果から,GaussianSwapはより優れたアイデンティティ保存,視覚的明瞭度,時間的整合性を実現し,従来は達成不可能な対話型アプリケーションを実現した。
関連論文リスト
- ScaffoldAvatar: High-Fidelity Gaussian Avatars with Patch Expressions [49.34398022152462]
局所的に定義した表情と3Dガウススプラッティングを組み合わせて,超高忠実度,表現性,フォトリアリスティックな3D頭部アバターを作成することを提案する。
特に、パッチベースの幾何学的3次元顔モデルを用いて、パッチ表現を抽出し、それらを局所的なダイナミックスキンの外観や動きに変換する方法を学ぶ。
我々は,高解像度の3Kトレーニング画像に対して,高画質な結果とより高速なコンバージェンスを得るために,カラーベースデンシフィケーションとプログレッシブトレーニングを採用している。
論文 参考訳(メタデータ) (2025-07-14T17:59:03Z) - ToonifyGB: StyleGAN-based Gaussian Blendshapes for 3D Stylized Head Avatars [0.916825397273032]
StyleGANベースのToonifyは、顔画像のスタイリングに広く使われている。
そこで我々は,Toonifyを多種多様な3Dヘッドアバターに拡張するための効率的な2段階フレームワークToonifyGBを提案する。
論文 参考訳(メタデータ) (2025-05-15T08:16:12Z) - PERSE: Personalized 3D Generative Avatars from A Single Portrait [18.069177711777662]
PERSEは、参照ポートレートからパーソナライズされた3D生成アバターを構築する方法である。
提案手法は,大規模な合成2Dビデオデータセットから始まる。
論文 参考訳(メタデータ) (2024-12-30T18:59:58Z) - GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - G3FA: Geometry-guided GAN for Face Animation [14.488117084637631]
この制限に対処するために、顔アニメーション(G3FA)のための幾何学誘導型GANを導入する。
我々の新しいアプローチは、顔アニメーションモデルに2次元画像のみを用いて3次元情報を組み込むことを可能にした。
顔の再現モデルでは、動きのダイナミクスを捉えるために2次元の運動ワープを利用する。
論文 参考訳(メタデータ) (2024-08-23T13:13:24Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-06-27T06:48:15Z) - UniFaceGAN: A Unified Framework for Temporally Consistent Facial Video
Editing [78.26925404508994]
我々は,UniFaceGANと呼ばれる時間的に一貫した顔画像編集フレームワークを提案する。
本フレームワークは,顔交換と顔再現を同時に行うように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2021-08-12T10:35:22Z) - Image-to-Video Generation via 3D Facial Dynamics [78.01476554323179]
静止画像から様々な映像を生成するために多目的モデルであるFaceAnimeを提案する。
私たちのモデルは、顔ビデオや顔ビデオの予測など、さまざまなAR/VRやエンターテイメントアプリケーションに汎用的です。
論文 参考訳(メタデータ) (2021-05-31T02:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。