Fugu-MT 論文翻訳(概要): PVP: Personalized Video Prior for Editable Dynamic Portraits using StyleGAN

論文の概要: PVP: Personalized Video Prior for Editable Dynamic Portraits using StyleGAN

arxiv url: http://arxiv.org/abs/2306.17123v1
Date: Thu, 29 Jun 2023 17:26:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-30 12:21:41.005958
Title: PVP: Personalized Video Prior for Editable Dynamic Portraits using StyleGAN
Title（参考訳）: PVP: StyleGANを使った編集可能なダイナミックポートレイトに先立ってパーソナライズされたビデオ
Authors: Kai-En Lin and Alex Trevithick and Keli Cheng and Michel Sarkis and Mohsen Ghafoorian and Ning Bi and Gerhard Reitmayr and Ravi Ramamoorthi
Abstract要約: StyleGANは、人間の顔の写実的で正確な再構築において有望な結果を示している。本研究の目的は,顔のモノクロ映像を入力として,編集可能な動的肖像画を作成することである。ユーザーは新しい視点を作成し、外観を編集し、顔をアニメーションすることができる。
参考スコア（独自算出の注目度）: 33.49053731211931
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Portrait synthesis creates realistic digital avatars which enable users to interact with others in a compelling way. Recent advances in StyleGAN and its extensions have shown promising results in synthesizing photorealistic and accurate reconstruction of human faces. However, previous methods often focus on frontal face synthesis and most methods are not able to handle large head rotations due to the training data distribution of StyleGAN. In this work, our goal is to take as input a monocular video of a face, and create an editable dynamic portrait able to handle extreme head poses. The user can create novel viewpoints, edit the appearance, and animate the face. Our method utilizes pivotal tuning inversion (PTI) to learn a personalized video prior from a monocular video sequence. Then we can input pose and expression coefficients to MLPs and manipulate the latent vectors to synthesize different viewpoints and expressions of the subject. We also propose novel loss functions to further disentangle pose and expression in the latent space. Our algorithm shows much better performance over previous approaches on monocular video datasets, and it is also capable of running in real-time at 54 FPS on an RTX 3080.
Abstract（参考訳）: ポートレート合成はリアルなデジタルアバターを作り、ユーザーが魅力的な方法で他の人と対話できるようにする。 StyleGANとその拡張の最近の進歩は、人間の顔の光現実的かつ正確な再構成を合成する有望な結果を示している。しかし,従来の手法は正面顔合成に重点を置いており,ほとんどの手法ではStyleGANのトレーニングデータ分布のために大きな頭部回転を処理できない。本研究の目的は,顔のモノクロ映像を入力として,極端な頭部ポーズを処理可能な動的肖像画を作成することである。ユーザーは新しい視点を作り、外観を編集し、顔をアニメーション化することができる。本手法は,PTI(Philipal tuning inversion)を用いて,モノクロビデオシーケンスからパーソナライズされたビデオの学習を行う。次にポーズと表現係数をmlpに入力し、潜在ベクトルを操作することで、対象の異なる視点と表現を合成することができる。また、潜在空間におけるポーズと表現をさらに歪める新しい損失関数を提案する。また,RTX 3080 上で54 FPS をリアルタイムに動作させることができる。

関連論文リスト

HumanRAM: Feed-forward Human Reconstruction and Animation Model using Transformers [60.86393841247567]
HumanRAMは、モノクル画像やスパース画像から人間の再構築とアニメーションを一般化するための、新しいフィードフォワードアプローチである。提案手法は,人間の再構築とアニメーションを,明示的なポーズ条件を導入することによって統合された枠組みに統合する。実験の結果,HumanRAMは再現精度,アニメーション忠実度,実世界のデータセット上での一般化性能において,従来の手法をはるかに上回っていることがわかった。
論文参考訳（メタデータ） (2025-06-03T17:50:05Z)
GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文参考訳（メタデータ） (2024-09-18T13:05:43Z)
SPARK: Self-supervised Personalized Real-time Monocular Face Capture [6.093606972415841]
現在の最先端技術では、パラメトリックな3D顔モデルを幅広いアイデンティティにわたってリアルタイムに再現することができる。本稿では,被写体の制約のない映像を先行情報として活用し,高精度な3次元顔撮影手法を提案する。
論文参考訳（メタデータ） (2024-09-12T12:30:04Z)
MyPortrait: Morphable Prior-Guided Personalized Portrait Generation [19.911068375240905]
Myportraitは、神経ポートレート生成のためのシンプルで汎用的で柔軟なフレームワークである。提案するフレームワークは,映像駆動型と音声駆動型の両方の顔アニメーションをサポートする。提案手法はリアルタイムオンライン版と高品質オフライン版を提供する。
論文参考訳（メタデータ） (2023-12-05T12:05:01Z)
GAN-Avatar: Controllable Personalized GAN-based Human Head Avatar [48.21353924040671]
そこで本稿では,顔表情の正確な追跡を行うことなく,画像から人固有のアニマタブルなアバターを学習することを提案する。 3DMMの表情パラメータから生成モデルの潜在空間へのマッピングを学習する。この方式により、3次元の外観再構成とアニメーション制御を分離し、画像合成における高忠実度を実現する。
論文参考訳（メタデータ） (2023-11-22T19:13:00Z)
Controllable Dynamic Appearance for Neural 3D Portraits [54.29179484318194]
実環境下での3D画像の完全制御を可能にするシステムであるCoDyNeRFを提案する。 CoDyNeRFは、動的外観モデルを通して照明依存効果を近似することを学ぶ。本手法が明示的な頭部ポーズと表情制御を備えたポートレートシーンのフリービュー合成に有効であることを示す。
論文参考訳（メタデータ） (2023-09-20T02:24:40Z)
Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis [124.48519390371636]
人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。これまでは、人工的な3Dモデルに頼っていたり、ターゲットごとに個別のモデルを訓練していた。本研究は,ソース映像から対象人物への動きを同期的に伝達する単一モデルを学習することを目的とした,より一般的な設定について研究する。
論文参考訳（メタデータ） (2021-10-27T03:42:41Z)
Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文参考訳（メタデータ） (2020-08-11T22:28:48Z)
Audio-driven Talking Face Video Generation with Learning-based Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文参考訳（メタデータ） (2020-02-24T10:02:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。