論文の概要: PortraitDirector: A Hierarchical Disentanglement Framework for Controllable and Real-time Facial Reenactment
- arxiv url: http://arxiv.org/abs/2604.19129v1
- Date: Tue, 21 Apr 2026 06:22:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.648593
- Title: PortraitDirector: A Hierarchical Disentanglement Framework for Controllable and Real-time Facial Reenactment
- Title(参考訳): PortraitDirector: 制御可能でリアルタイムな顔再現のための階層的アンタングルメントフレームワーク
- Authors: Chaonan Ji, Jinwei Qi, Sheng Xu, Peng Zhang, Bang Zhang,
- Abstract要約: 既存の顔再現法は、表現性ときめ細かい制御性の間のトレードオフに苦慮している。
顔の再現を階層的な構成タスクとして定式化する新しいフレームワークであるPortraitDirectorを紹介する。
PortraitDirectorは、5090 GPUでエンドツーエンド800msのレイテンシで、ストリーミング、高忠実、制御可能な512 x 512のフェース再現を20 FPSで実現している。
- 参考スコア(独自算出の注目度): 17.846328303776023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing facial reenactment methods struggle with a trade-off between expressiveness and fine-grained controllability. Holistic facial reenactment models often sacrifice granular control for expressiveness, while methods designed for control may struggle with fidelity and robust disentanglement. Instead of treating facial motion as a monolithic signal, we explore an alternative compositional perspective. In this paper, we introduce PortraitDirector, a novel framework that formulates face reenactment as a hierarchical composition task, achieving high-fidelity and controllable results. We employ a Hierarchical Motion Disentanglement and Composition strategy, deconstructing facial motion into a Spatial Layer for physical movements and a Semantic Layer for emotional content. The Spatial Layer comprises: (i) global head pose, managed via a dedicated representation and injection pathway; (ii) spatially separated local facial expressions, distilled from cropped facial regions and purged of emotional cues via Emotion-Filtering Module leveraging an information bottleneck. The Semantic Layer contains a derived global emotion. The disentangled components are then recomposed into an expressive motion latent. Furthermore, we engineer the framework for real-time performance through a suite of optimizations, including diffusion distillation, causal attention and VAE acceleration. PortraitDirector achieves streaming, high-fidelity, controllable 512 x 512 face reenactment at 20 FPS with a end-to-end 800 ms latency on a single 5090 GPU.
- Abstract(参考訳): 既存の顔再現法は、表現性ときめ細かい制御性の間のトレードオフに苦慮している。
ホロスティックな顔再現モデルは、しばしば表現力のために粒度の制御を犠牲にするが、制御のために設計された方法は忠実さと頑健な歪曲に苦しむことがある。
顔の動きをモノリシックな信号として扱う代わりに、代替的な構成的視点を探求する。
本稿では,顔の再現を階層的な構成タスクとして定式化し,高忠実で制御可能な結果を実現する新しいフレームワークであるPortraitDirectorを紹介する。
本研究では,身体動作のための空間層と感情内容のためのセマンティック層に顔の動きをデコンストラクションする階層的な運動ディスタングルと構成戦略を採用する。
空間層は以下の通りである。
i) 専用表現及び注入経路を介して管理されるグローバルヘッドポーズ
(II) 表情の空間的分離, 収穫した顔領域から抽出し, 情報ボトルネックを利用した感情調整モジュールを用いて感情的手がかりを抽出した。
セマンティック・レイヤーは、派生したグローバルな感情を含んでいる。
解離した成分はその後、表現的な動き潜伏剤に分解される。
さらに, 拡散蒸留, 因果注意, VAE加速など, 一連の最適化によりリアルタイム性能の枠組みを構築した。
PortraitDirectorは、5090 GPUでエンドツーエンド800msのレイテンシで、ストリーミング、高忠実、制御可能な512 x 512のフェース再現を20 FPSで実現している。
関連論文リスト
- FactorPortrait: Controllable Portrait Animation via Disentangled Expression, Pose, and Viewpoint [49.80464592726769]
本研究では,映像拡散方式であるFacterPortraitを紹介する。
本手法は,運転映像から顔の表情や頭部の動きを移動させることにより,像を識別する。
提案手法は, 現実主義, 表現性, 制御精度, 視点整合性において, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2025-12-12T15:22:52Z) - Stable Video-Driven Portraits [52.008400639227034]
アニメーションは、ドライビングビデオから表現とポーズを再現することで、単一のソースイメージから写真リアルなビデオを生成することを目的としている。
拡散モデルを用いた最近の進歩は品質の向上を示しているが、弱い制御信号やアーキテクチャ上の制約によって制約されている。
本研究では, 眼, 鼻, 口などのマスク付き顔面領域を, 強力な動き制御手段として活用する新しい拡散型枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-22T08:11:08Z) - X-NeMo: Expressive Neural Motion Reenactment via Disentangled Latent Attention [52.94097577075215]
X-NeMoはゼロショット拡散ベースのポートレートアニメーションパイプラインである。
異なる人物の運転ビデオから顔の動きを使って、静的な肖像画を撮影する。
論文 参考訳(メタデータ) (2025-07-30T22:46:52Z) - FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis [12.987186425491242]
本研究では,高忠実でコヒーレントな音声画像と制御可能なモーションダイナミックスを生成するための新しい枠組みを提案する。
最初の段階では、コヒーレントなグローバルな動きを確立するためにクリップレベルのトレーニングスキームを採用している。
第2段階では、リップトレーシングマスクを用いて、フレームレベルでの唇の動きを洗練し、音声信号との正確な同期を確保する。
論文 参考訳(メタデータ) (2025-04-07T08:56:01Z) - GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - Towards Realistic Landmark-Guided Facial Video Inpainting Based on GANs [0.27624021966289597]
そこで本研究では,表現型ビデオインパインティングのためのネットワークを提案する。
GAN(Generative Adversarial Network)を使用して、すべてのフレームにまたがる静的および移動オクルージョンを処理する。
我々はさらに、カスタマイズされた表情認識(FER)損失関数により感情の保存を強化し、詳細なインペイント出力を確保する。
論文 参考訳(メタデータ) (2024-02-14T11:20:47Z) - Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers [57.1091606948826]
我々はこれらの課題に対処するため,ポーカー・フェイス・ビジョン・トランスフォーマー (PF-ViT) と呼ばれる新しいFERモデルを提案する。
PF-ViTは、対応するポーカーフェースを生成して、乱れを認識できない感情を静的な顔画像から分離し、認識することを目的としている。
PF-ViTはバニラビジョントランスフォーマーを使用し、そのコンポーネントは大規模な表情データセット上でMasked Autoencodeerとして事前トレーニングされている。
論文 参考訳(メタデータ) (2022-07-22T13:39:06Z) - UniFaceGAN: A Unified Framework for Temporally Consistent Facial Video
Editing [78.26925404508994]
我々は,UniFaceGANと呼ばれる時間的に一貫した顔画像編集フレームワークを提案する。
本フレームワークは,顔交換と顔再現を同時に行うように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2021-08-12T10:35:22Z) - Generative Adversarial Stacked Autoencoders for Facial Pose
Normalization and Emotion Recognition [4.620526905329234]
本稿では,表情のマッピングを学習するジェネレーティブ・アドバイサル・スタックド・オートエンコーダを提案する。
野生で採集された顔の感情認識コーパスについて,最先端のパフォーマンスを報告した。
論文 参考訳(メタデータ) (2020-07-19T21:47:16Z) - Head2Head++: Deep Facial Attributes Re-Targeting [6.230979482947681]
我々は,顔の3次元形状とGANを利用して,顔と頭部の再現作業のための新しいディープラーニングアーキテクチャを設計する。
駆動単眼動作から複雑な非剛性顔の動きを捉え,時間的に一貫した映像を合成する。
我々のシステムは、ほぼリアルタイムでエンドツーエンドの再現(18fps)を行う。
論文 参考訳(メタデータ) (2020-06-17T23:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。