論文の概要: Dynamic Neural Portraits
- arxiv url: http://arxiv.org/abs/2211.13994v1
- Date: Fri, 25 Nov 2022 10:06:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 17:02:02.904881
- Title: Dynamic Neural Portraits
- Title(参考訳): ダイナミックニューラル・ポートレート
- Authors: Michail Christos Doukas, Stylianos Ploumpis, Stefanos Zafeiriou
- Abstract要約: フルヘッド再現問題に対する新しいアプローチであるDynamic Neural Portraitsを提案する。
本手法は,頭部ポーズ,表情,視線を明示的に制御し,写実的な映像像を生成する。
実験の結果,提案手法は最近のNeRF法よりも270倍高速であることがわかった。
- 参考スコア(独自算出の注目度): 58.480811535222834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Dynamic Neural Portraits, a novel approach to the problem of
full-head reenactment. Our method generates photo-realistic video portraits by
explicitly controlling head pose, facial expressions and eye gaze. Our proposed
architecture is different from existing methods that rely on GAN-based
image-to-image translation networks for transforming renderings of 3D faces
into photo-realistic images. Instead, we build our system upon a 2D
coordinate-based MLP with controllable dynamics. Our intuition to adopt a
2D-based representation, as opposed to recent 3D NeRF-like systems, stems from
the fact that video portraits are captured by monocular stationary cameras,
therefore, only a single viewpoint of the scene is available. Primarily, we
condition our generative model on expression blendshapes, nonetheless, we show
that our system can be successfully driven by audio features as well. Our
experiments demonstrate that the proposed method is 270 times faster than
recent NeRF-based reenactment methods, with our networks achieving speeds of 24
fps for resolutions up to 1024 x 1024, while outperforming prior works in terms
of visual quality.
- Abstract(参考訳): フルヘッド再現問題に対する新しいアプローチであるDynamic Neural Portraitsを提案する。
本手法は,頭部ポーズ,表情,視線を明示的に制御し,写実的な映像像を生成する。
提案アーキテクチャは,3次元顔の描画をリアルな画像に変換するため,GANベースの画像変換ネットワークに依存する既存の手法とは異なる。
代わりに、制御可能なダイナミクスを持つ2次元座標ベースMLPに基づいてシステムを構築する。
最近の3D NeRFライクなシステムとは対照的に、2Dベースの表現を採用するという直感は、ビデオのポートレートが単眼の静止カメラによって捉えられているという事実に起因している。
主に,我々の生成モデルと表現が混在していることを条件に,我々のシステムも音声機能によって駆動可能であることを示す。
実験の結果,提案手法は最近のNeRF法よりも270倍高速であり,ネットワークは1024×1024の解像度で24fpsの高速化を実現している。
関連論文リスト
- G3FA: Geometry-guided GAN for Face Animation [14.488117084637631]
この制限に対処するために、顔アニメーション(G3FA)のための幾何学誘導型GANを導入する。
我々の新しいアプローチは、顔アニメーションモデルに2次元画像のみを用いて3次元情報を組み込むことを可能にした。
顔の再現モデルでは、動きのダイナミクスを捉えるために2次元の運動ワープを利用する。
論文 参考訳(メタデータ) (2024-08-23T13:13:24Z) - VOODOO XP: Expressive One-Shot Head Reenactment for VR Telepresence [14.010324388059866]
VOODOO XPは、入力ドライバビデオと1枚の2Dポートレートから高表現力の表情を生成することができる、3D対応のワンショットヘッド再現法である。
本稿では,モノクラー映像設定と双方向通信のためのエンドツーエンドVRテレプレゼンスシステムについて述べる。
論文 参考訳(メタデータ) (2024-05-25T12:33:40Z) - VOODOO 3D: Volumetric Portrait Disentanglement for One-Shot 3D Head
Reenactment [17.372274738231443]
そこで本研究では,ソースの出現とドライバ表現のための,完全に神経の絡み合ったフレームワークをベースとした3D認識型ワンショットヘッド再現手法を提案する。
提案手法はリアルタイムであり,ホログラフィックディスプレイに基づく3次元遠隔会議システムに適した高忠実・高精細な出力を実現する。
論文 参考訳(メタデータ) (2023-12-07T19:19:57Z) - AniPortraitGAN: Animatable 3D Portrait Generation from 2D Image
Collections [78.81539337399391]
顔の表情, 頭部ポーズ, 肩の動きを制御可能なポートレート画像を生成するアニマタブルな3D認識型GANを提案する。
これは、3Dやビデオデータを使用しない非構造化2次元画像コレクションで訓練された生成モデルである。
生成した顔の質を向上させるために,デュアルカメラレンダリングと対角学習方式を提案する。
論文 参考訳(メタデータ) (2023-09-05T12:44:57Z) - StyleAvatar: Real-time Photo-realistic Portrait Avatar from a Single
Video [39.176852832054045]
StyleAvatar(スタイルアバター)は、StyleGANベースのネットワークを用いたリアルタイムな写真リアルなポートレートアバター再構築手法である。
結果と実験により,画像品質,フルポートレート映像生成,リアルタイム再アニメーションの観点から,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2023-05-01T16:54:35Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-06-27T06:48:15Z) - Towards Realistic 3D Embedding via View Alignment [53.89445873577063]
本稿では,3次元モデルを2次元背景画像に現実的に,かつ自動的に埋め込み,新たな画像を構成する,革新的なビューアライメントGAN(VA-GAN)を提案する。
VA-GANはテクスチャジェネレータとディファレンシャルディスクリミネーターで構成され、相互接続され、エンドツーエンドのトレーニングが可能である。
論文 参考訳(メタデータ) (2020-07-14T14:45:00Z) - Head2Head++: Deep Facial Attributes Re-Targeting [6.230979482947681]
我々は,顔の3次元形状とGANを利用して,顔と頭部の再現作業のための新しいディープラーニングアーキテクチャを設計する。
駆動単眼動作から複雑な非剛性顔の動きを捉え,時間的に一貫した映像を合成する。
我々のシステムは、ほぼリアルタイムでエンドツーエンドの再現(18fps)を行う。
論文 参考訳(メタデータ) (2020-06-17T23:38:37Z) - DeepFaceFlow: In-the-wild Dense 3D Facial Motion Estimation [56.56575063461169]
DeepFaceFlowは、3D非剛体顔の流れを推定するための堅牢で高速で高精度なフレームワークである。
私たちのフレームワークは、2つの非常に大規模な顔ビデオデータセットでトレーニングされ、テストされました。
登録された画像に対して,60fpsで3次元フローマップを生成する。
論文 参考訳(メタデータ) (2020-05-14T23:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。