論文の概要: PVP: Personalized Video Prior for Editable Dynamic Portraits using
StyleGAN
- arxiv url: http://arxiv.org/abs/2306.17123v1
- Date: Thu, 29 Jun 2023 17:26:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 12:21:41.005958
- Title: PVP: Personalized Video Prior for Editable Dynamic Portraits using
StyleGAN
- Title(参考訳): PVP: StyleGANを使った編集可能なダイナミックポートレイトに先立ってパーソナライズされたビデオ
- Authors: Kai-En Lin and Alex Trevithick and Keli Cheng and Michel Sarkis and
Mohsen Ghafoorian and Ning Bi and Gerhard Reitmayr and Ravi Ramamoorthi
- Abstract要約: StyleGANは、人間の顔の写実的で正確な再構築において有望な結果を示している。
本研究の目的は,顔のモノクロ映像を入力として,編集可能な動的肖像画を作成することである。
ユーザーは新しい視点を作成し、外観を編集し、顔をアニメーションすることができる。
- 参考スコア(独自算出の注目度): 33.49053731211931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Portrait synthesis creates realistic digital avatars which enable users to
interact with others in a compelling way. Recent advances in StyleGAN and its
extensions have shown promising results in synthesizing photorealistic and
accurate reconstruction of human faces. However, previous methods often focus
on frontal face synthesis and most methods are not able to handle large head
rotations due to the training data distribution of StyleGAN. In this work, our
goal is to take as input a monocular video of a face, and create an editable
dynamic portrait able to handle extreme head poses. The user can create novel
viewpoints, edit the appearance, and animate the face. Our method utilizes
pivotal tuning inversion (PTI) to learn a personalized video prior from a
monocular video sequence. Then we can input pose and expression coefficients to
MLPs and manipulate the latent vectors to synthesize different viewpoints and
expressions of the subject. We also propose novel loss functions to further
disentangle pose and expression in the latent space. Our algorithm shows much
better performance over previous approaches on monocular video datasets, and it
is also capable of running in real-time at 54 FPS on an RTX 3080.
- Abstract(参考訳): ポートレート合成はリアルなデジタルアバターを作り、ユーザーが魅力的な方法で他の人と対話できるようにする。
StyleGANとその拡張の最近の進歩は、人間の顔の光現実的かつ正確な再構成を合成する有望な結果を示している。
しかし,従来の手法は正面顔合成に重点を置いており,ほとんどの手法ではStyleGANのトレーニングデータ分布のために大きな頭部回転を処理できない。
本研究の目的は,顔のモノクロ映像を入力として,極端な頭部ポーズを処理可能な動的肖像画を作成することである。
ユーザーは新しい視点を作り、外観を編集し、顔をアニメーション化することができる。
本手法は,PTI(Philipal tuning inversion)を用いて,モノクロビデオシーケンスからパーソナライズされたビデオの学習を行う。
次にポーズと表現係数をmlpに入力し、潜在ベクトルを操作することで、対象の異なる視点と表現を合成することができる。
また、潜在空間におけるポーズと表現をさらに歪める新しい損失関数を提案する。
また,RTX 3080 上で54 FPS をリアルタイムに動作させることができる。
関連論文リスト
- MyPortrait: Morphable Prior-Guided Personalized Portrait Generation [19.911068375240905]
Myportraitは、神経ポートレート生成のためのシンプルで汎用的で柔軟なフレームワークである。
提案するフレームワークは,映像駆動型と音声駆動型の両方の顔アニメーションをサポートする。
提案手法はリアルタイムオンライン版と高品質オフライン版を提供する。
論文 参考訳(メタデータ) (2023-12-05T12:05:01Z) - GAN-Avatar: Controllable Personalized GAN-based Human Head Avatar [48.21353924040671]
そこで本稿では,顔表情の正確な追跡を行うことなく,画像から人固有のアニマタブルなアバターを学習することを提案する。
3DMMの表情パラメータから生成モデルの潜在空間へのマッピングを学習する。
この方式により、3次元の外観再構成とアニメーション制御を分離し、画像合成における高忠実度を実現する。
論文 参考訳(メタデータ) (2023-11-22T19:13:00Z) - Controllable Dynamic Appearance for Neural 3D Portraits [54.29179484318194]
実環境下での3D画像の完全制御を可能にするシステムであるCoDyNeRFを提案する。
CoDyNeRFは、動的外観モデルを通して照明依存効果を近似することを学ぶ。
本手法が明示的な頭部ポーズと表情制御を備えたポートレートシーンのフリービュー合成に有効であることを示す。
論文 参考訳(メタデータ) (2023-09-20T02:24:40Z) - Novel View Synthesis of Humans using Differentiable Rendering [50.57718384229912]
我々は新しいポーズで人々の新しい視点を合成するための新しいアプローチを提案する。
我々の合成はヒトの骨格構造を表す拡散ガウス原始体を用いる。
これらのプリミティブをレンダリングすると、高次元の潜像が得られ、デコーダネットワークによってRGBイメージに変換される。
論文 参考訳(メタデータ) (2023-03-28T10:48:33Z) - NARRATE: A Normal Assisted Free-View Portrait Stylizer [42.38374601073052]
NARRATEは、ポートレートライティングと視点をフォトリアリスティックな方法で同時に編集できる新しいパイプラインである。
実験により、NARRATEは、先行研究よりも、よりフォトリアリスティックで信頼性の高い結果が得られることを示した。
さまざまなAR/VRアプリケーションを支援するために,鮮明なフリービューの顔アニメーションと3D対応のライライザライゼーションを紹介した。
論文 参考訳(メタデータ) (2022-07-03T07:54:05Z) - Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis [124.48519390371636]
人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。
これまでは、人工的な3Dモデルに頼っていたり、ターゲットごとに個別のモデルを訓練していた。
本研究は,ソース映像から対象人物への動きを同期的に伝達する単一モデルを学習することを目的とした,より一般的な設定について研究する。
論文 参考訳(メタデータ) (2021-10-27T03:42:41Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。