論文の概要: FactorPortrait: Controllable Portrait Animation via Disentangled Expression, Pose, and Viewpoint
- arxiv url: http://arxiv.org/abs/2512.11645v1
- Date: Fri, 12 Dec 2025 15:22:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.821502
- Title: FactorPortrait: Controllable Portrait Animation via Disentangled Expression, Pose, and Viewpoint
- Title(参考訳): FactorPortrait: 切り離された表現, 詩, 視点によるコントロール可能なポートレートアニメーション
- Authors: Jiapeng Tang, Kai Li, Chengxiang Yin, Liuhao Ge, Fei Jiang, Jiu Xu, Matthias Nießner, Christian Häne, Timur Bagautdinov, Egor Zakharov, Peihong Guo,
- Abstract要約: 本研究では,映像拡散方式であるFacterPortraitを紹介する。
本手法は,運転映像から顔の表情や頭部の動きを移動させることにより,像を識別する。
提案手法は, 現実主義, 表現性, 制御精度, 視点整合性において, 既存の手法よりも優れる。
- 参考スコア(独自算出の注目度): 49.80464592726769
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce FactorPortrait, a video diffusion method for controllable portrait animation that enables lifelike synthesis from disentangled control signals of facial expressions, head movement, and camera viewpoints. Given a single portrait image, a driving video, and camera trajectories, our method animates the portrait by transferring facial expressions and head movements from the driving video while simultaneously enabling novel view synthesis from arbitrary viewpoints. We utilize a pre-trained image encoder to extract facial expression latents from the driving video as control signals for animation generation. Such latents implicitly capture nuanced facial expression dynamics with identity and pose information disentangled, and they are efficiently injected into the video diffusion transformer through our proposed expression controller. For camera and head pose control, we employ Plücker ray maps and normal maps rendered from 3D body mesh tracking. To train our model, we curate a large-scale synthetic dataset containing diverse combinations of camera viewpoints, head poses, and facial expression dynamics. Extensive experiments demonstrate that our method outperforms existing approaches in realism, expressiveness, control accuracy, and view consistency.
- Abstract(参考訳): 本研究では,顔の表情,頭部の動き,カメラ視点のゆがみのある制御信号からライフライクな合成を可能にする映像拡散方式であるFacterPortraitを紹介する。
一つの肖像画, 運転映像, カメラ軌跡が与えられた場合, 運転映像から表情や頭部の動きを伝達し, 任意の視点から新規な視点合成を可能にする。
予め訓練した画像エンコーダを用いて、運転映像から表情潜在者をアニメーション生成のための制御信号として抽出する。
このような潜伏者は、暗黙的にニュアンスされた表情のダイナミクスをアイデンティティで捉え、情報を歪ませて、提案した表現制御器を通じて映像拡散変換器に効率的に注入する。
カメラとヘッドポーズの制御には、プラッカー線マップと3Dボディーメッシュトラッキングから描画される通常の地図を用いる。
モデルを訓練するために、カメラ視点、頭部ポーズ、表情のダイナミクスの多様な組み合わせを含む大規模な合成データセットをキュレートする。
大規模な実験により,本手法は現実主義,表現性,制御精度,視点整合性といった既存手法よりも優れていた。
関連論文リスト
- DirectSwap: Mask-Free Cross-Identity Training and Benchmarking for Expression-Consistent Video Head Swapping [58.2549561389375]
ビデオヘッドスワップは、顔のアイデンティティ、頭の形、ヘアスタイルなど、ビデオ対象の頭部全体を参照画像に置き換えることを目的としている。
地対交換データがないため、従来の手法はビデオ内の同一人物のクロスフレームペアをトレーニングする。
我々は、画像U-Netをビデオ拡散モデルに拡張する、マスクのない直接ビデオヘッドスワッピングフレームワークであるDirectSwapを提案する。
論文 参考訳(メタデータ) (2025-12-10T08:31:28Z) - X-NeMo: Expressive Neural Motion Reenactment via Disentangled Latent Attention [52.94097577075215]
X-NeMoはゼロショット拡散ベースのポートレートアニメーションパイプラインである。
異なる人物の運転ビデオから顔の動きを使って、静的な肖像画を撮影する。
論文 参考訳(メタデータ) (2025-07-30T22:46:52Z) - GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - X-Portrait: Expressive Portrait Animation with Hierarchical Motion Attention [18.211762995744337]
本稿では,表現的かつ時間的コヒーレントなポートレートアニメーションを生成するための,革新的な条件拡散モデルであるX-Portraitを提案する。
外観参照として1つのポートレートが与えられた場合、駆動ビデオから得られる動きをアニメーション化し、非常にダイナミックかつ微妙な表情をキャプチャすることを目的としている。
実験により,X-ポートレートの多彩な顔画像および表現力のある運転シーケンスに対する普遍的効果が示された。
論文 参考訳(メタデータ) (2024-03-23T20:30:28Z) - PIRenderer: Controllable Portrait Image Generation via Semantic Neural
Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。
提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。
本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T07:24:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。