論文の概要: MyPortrait: Morphable Prior-Guided Personalized Portrait Generation
- arxiv url: http://arxiv.org/abs/2312.02703v1
- Date: Tue, 5 Dec 2023 12:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 15:40:50.615729
- Title: MyPortrait: Morphable Prior-Guided Personalized Portrait Generation
- Title(参考訳): myportrait: モーフィナブルな事前ガイド付きパーソナライズされたポートレートジェネレーション
- Authors: Bo Ding, Zhenfeng Fan, Shuang Yang, Shihong Xia
- Abstract要約: Myportraitは、神経ポートレート生成のためのシンプルで汎用的で柔軟なフレームワークである。
提案するフレームワークは,映像駆動型と音声駆動型の両方の顔アニメーションをサポートする。
提案手法はリアルタイムオンライン版と高品質オフライン版を提供する。
- 参考スコア(独自算出の注目度): 19.911068375240905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating realistic talking faces is an interesting and long-standing topic
in the field of computer vision. Although significant progress has been made,
it is still challenging to generate high-quality dynamic faces with
personalized details. This is mainly due to the inability of the general model
to represent personalized details and the generalization problem to unseen
controllable parameters. In this work, we propose Myportrait, a simple,
general, and flexible framework for neural portrait generation. We incorporate
personalized prior in a monocular video and morphable prior in 3D face
morphable space for generating personalized details under novel controllable
parameters. Our proposed framework supports both video-driven and audio-driven
face animation given a monocular video of a single person. Distinguished by
whether the test data is sent to training or not, our method provides a
real-time online version and a high-quality offline version. Comprehensive
experiments in various metrics demonstrate the superior performance of our
method over the state-of-the-art methods. The code will be publicly available.
- Abstract(参考訳): 現実的な会話の顔を生成することは、コンピュータビジョンの分野で興味深い、長く続いたトピックである。
かなりの進歩があったが、パーソナライズされた詳細で高品質な動的顔を生成することは依然として困難である。
これは主に、パーソナライズされた詳細を表現できない一般モデルと、制御不能なパラメータの一般化問題に起因する。
本研究では,神経ポートレート生成のための単純で汎用的で柔軟なフレームワークmyportraitを提案する。
我々は,パーソナライズド・プリアーを単眼映像に組み込んで,新たな制御可能なパラメータでパーソナライズド・ディテールを生成する3d顔モーファブル空間にモーファブル・プリアーを組み込む。
提案フレームワークは,一人のモノクロ映像が与えられた映像駆動と音声駆動の顔アニメーションの両方をサポートする。
テストデータがトレーニングに送信されるかどうかによって、我々の方法はリアルタイムのオンラインバージョンと高品質のオフラインバージョンを提供する。
各種メトリクスにおける総合的な実験は,最先端手法よりも優れた性能を示す。
コードは公開される予定だ。
関連論文リスト
- MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文 参考訳(メタデータ) (2024-10-09T10:12:37Z) - Single Image, Any Face: Generalisable 3D Face Generation [59.9369171926757]
我々は,制約のない単一画像入力を伴う3次元顔を生成する新しいモデルGen3D-Faceを提案する。
私たちの知る限りでは、これは1枚の画像からフォトリアリスティックな3D顔アバターを作るための最初の試みであり、ベンチマークである。
論文 参考訳(メタデータ) (2024-09-25T14:56:37Z) - GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - SPARK: Self-supervised Personalized Real-time Monocular Face Capture [6.093606972415841]
現在の最先端技術では、パラメトリックな3D顔モデルを幅広いアイデンティティにわたってリアルタイムに再現することができる。
本稿では,被写体の制約のない映像を先行情報として活用し,高精度な3次元顔撮影手法を提案する。
論文 参考訳(メタデータ) (2024-09-12T12:30:04Z) - VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis [40.869862603815875]
VLOGGER (VLOGGER) は、単一の入力画像から音声駆動のヒューマンビデオを生成する方法である。
空間的および時間的制御の両面からテキスト・ツー・イメージ・モデルを拡張する新しい拡散型アーキテクチャを用いている。
ビデオ編集やパーソナライズにおける応用例を示す。
論文 参考訳(メタデータ) (2024-03-13T17:59:02Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - PVP: Personalized Video Prior for Editable Dynamic Portraits using
StyleGAN [33.49053731211931]
StyleGANは、人間の顔の写実的で正確な再構築において有望な結果を示している。
本研究の目的は,顔のモノクロ映像を入力として,編集可能な動的肖像画を作成することである。
ユーザーは新しい視点を作成し、外観を編集し、顔をアニメーションすることができる。
論文 参考訳(メタデータ) (2023-06-29T17:26:51Z) - HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。
本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。
テスト時,本手法は単眼のRGBビデオによって駆動される。
論文 参考訳(メタデータ) (2023-03-25T13:56:33Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - PVA: Pixel-aligned Volumetric Avatars [34.929560973779466]
少数の入力から人間の頭部の体積アバターを予測するための新しいアプローチを考案する。
提案手法は,光度再レンダリングによる損失のみを前提としたエンドツーエンドで,明示的な3次元監視を必要とせずに訓練を行う。
論文 参考訳(メタデータ) (2021-01-07T18:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。