論文の概要: MyPortrait: Morphable Prior-Guided Personalized Portrait Generation
- arxiv url: http://arxiv.org/abs/2312.02703v1
- Date: Tue, 5 Dec 2023 12:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 15:40:50.615729
- Title: MyPortrait: Morphable Prior-Guided Personalized Portrait Generation
- Title(参考訳): myportrait: モーフィナブルな事前ガイド付きパーソナライズされたポートレートジェネレーション
- Authors: Bo Ding, Zhenfeng Fan, Shuang Yang, Shihong Xia
- Abstract要約: Myportraitは、神経ポートレート生成のためのシンプルで汎用的で柔軟なフレームワークである。
提案するフレームワークは,映像駆動型と音声駆動型の両方の顔アニメーションをサポートする。
提案手法はリアルタイムオンライン版と高品質オフライン版を提供する。
- 参考スコア(独自算出の注目度): 19.911068375240905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating realistic talking faces is an interesting and long-standing topic
in the field of computer vision. Although significant progress has been made,
it is still challenging to generate high-quality dynamic faces with
personalized details. This is mainly due to the inability of the general model
to represent personalized details and the generalization problem to unseen
controllable parameters. In this work, we propose Myportrait, a simple,
general, and flexible framework for neural portrait generation. We incorporate
personalized prior in a monocular video and morphable prior in 3D face
morphable space for generating personalized details under novel controllable
parameters. Our proposed framework supports both video-driven and audio-driven
face animation given a monocular video of a single person. Distinguished by
whether the test data is sent to training or not, our method provides a
real-time online version and a high-quality offline version. Comprehensive
experiments in various metrics demonstrate the superior performance of our
method over the state-of-the-art methods. The code will be publicly available.
- Abstract(参考訳): 現実的な会話の顔を生成することは、コンピュータビジョンの分野で興味深い、長く続いたトピックである。
かなりの進歩があったが、パーソナライズされた詳細で高品質な動的顔を生成することは依然として困難である。
これは主に、パーソナライズされた詳細を表現できない一般モデルと、制御不能なパラメータの一般化問題に起因する。
本研究では,神経ポートレート生成のための単純で汎用的で柔軟なフレームワークmyportraitを提案する。
我々は,パーソナライズド・プリアーを単眼映像に組み込んで,新たな制御可能なパラメータでパーソナライズド・ディテールを生成する3d顔モーファブル空間にモーファブル・プリアーを組み込む。
提案フレームワークは,一人のモノクロ映像が与えられた映像駆動と音声駆動の顔アニメーションの両方をサポートする。
テストデータがトレーニングに送信されるかどうかによって、我々の方法はリアルタイムのオンラインバージョンと高品質のオフラインバージョンを提供する。
各種メトリクスにおける総合的な実験は,最先端手法よりも優れた性能を示す。
コードは公開される予定だ。
関連論文リスト
- VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis [40.869862603815875]
VLOGGER (VLOGGER) は、単一の入力画像から音声駆動のヒューマンビデオを生成する方法である。
空間的および時間的制御の両面からテキスト・ツー・イメージ・モデルを拡張する新しい拡散型アーキテクチャを用いている。
ビデオ編集やパーソナライズにおける応用例を示す。
論文 参考訳(メタデータ) (2024-03-13T17:59:02Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - GAN-Avatar: Controllable Personalized GAN-based Human Head Avatar [48.21353924040671]
そこで本稿では,顔表情の正確な追跡を行うことなく,画像から人固有のアニマタブルなアバターを学習することを提案する。
3DMMの表情パラメータから生成モデルの潜在空間へのマッピングを学習する。
この方式により、3次元の外観再構成とアニメーション制御を分離し、画像合成における高忠実度を実現する。
論文 参考訳(メタデータ) (2023-11-22T19:13:00Z) - ReliTalk: Relightable Talking Portrait Generation from a Single Video [62.47116237654984]
ReliTalkは、モノクロビデオから再生可能なオーディオ駆動型音声ポートレート生成のための新しいフレームワークである。
我々の重要な洞察は、ポートレートの反射を暗黙的に学習された音声駆動の顔の正常と画像から分解することである。
論文 参考訳(メタデータ) (2023-09-05T17:59:42Z) - FaceChain: A Playground for Human-centric Artificial Intelligence
Generated Content [36.48960592782015]
FaceChainは、パーソナライズされたポートレート生成フレームワークで、一連のカスタマイズされた画像生成モデルと、顔に関連する知覚理解モデルの豊富なセットを組み合わせる。
我々は、複数のSOTAフェイスモデルを生成手順に注入し、従来のソリューションと比較して、より効率的なラベルタグ付け、データ処理、モデル後処理を実現する。
FaceChainをベースとして、仮想トライオンや2Dトーキングヘッドなど、その価値をよりよく示すための、より広いグラウンドを構築するためのいくつかのアプリケーションも開発しています。
論文 参考訳(メタデータ) (2023-08-28T02:20:44Z) - PVP: Personalized Video Prior for Editable Dynamic Portraits using
StyleGAN [33.49053731211931]
StyleGANは、人間の顔の写実的で正確な再構築において有望な結果を示している。
本研究の目的は,顔のモノクロ映像を入力として,編集可能な動的肖像画を作成することである。
ユーザーは新しい視点を作成し、外観を編集し、顔をアニメーションすることができる。
論文 参考訳(メタデータ) (2023-06-29T17:26:51Z) - HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。
本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。
テスト時,本手法は単眼のRGBビデオによって駆動される。
論文 参考訳(メタデータ) (2023-03-25T13:56:33Z) - Multiface: A Dataset for Neural Face Rendering [108.44505415073579]
本研究では,新しいマルチビュー,高解像度のヒューマン・フェイス・データセットであるMultifaceを提案する。
顔のパフォーマンスの高解像度同期映像をキャプチャする大規模なマルチカメラ装置であるMugsyを紹介する。
Multifaceの目的は、学術コミュニティにおける高品質データへのアクセシビリティのギャップを埋め、VRテレプレゼンスの研究を可能にすることである。
論文 参考訳(メタデータ) (2022-07-22T17:55:39Z) - StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via
Pretrained StyleGAN [49.917296433657484]
ワンショット・トーキング・フェイス・ジェネレーションは、任意のポートレート画像から高品質なトーキング・フェイス・ビデオを合成することを目的としている。
本研究では,事前学習したStyleGANの潜在特徴空間について検討し,優れた空間変換特性について考察する。
本稿では,事前学習したStyleGANをベースとした,強力な機能セットを実現する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-08T12:06:12Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - PVA: Pixel-aligned Volumetric Avatars [34.929560973779466]
少数の入力から人間の頭部の体積アバターを予測するための新しいアプローチを考案する。
提案手法は,光度再レンダリングによる損失のみを前提としたエンドツーエンドで,明示的な3次元監視を必要とせずに訓練を行う。
論文 参考訳(メタデータ) (2021-01-07T18:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。