Fugu-MT 論文翻訳(概要): MyPortrait: Morphable Prior-Guided Personalized Portrait Generation

論文の概要: MyPortrait: Morphable Prior-Guided Personalized Portrait Generation

arxiv url: http://arxiv.org/abs/2312.02703v1
Date: Tue, 5 Dec 2023 12:05:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 15:40:50.615729
Title: MyPortrait: Morphable Prior-Guided Personalized Portrait Generation
Title（参考訳）: myportrait: モーフィナブルな事前ガイド付きパーソナライズされたポートレートジェネレーション
Authors: Bo Ding, Zhenfeng Fan, Shuang Yang, Shihong Xia
Abstract要約: Myportraitは、神経ポートレート生成のためのシンプルで汎用的で柔軟なフレームワークである。提案するフレームワークは,映像駆動型と音声駆動型の両方の顔アニメーションをサポートする。提案手法はリアルタイムオンライン版と高品質オフライン版を提供する。
参考スコア（独自算出の注目度）: 19.911068375240905
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating realistic talking faces is an interesting and long-standing topic in the field of computer vision. Although significant progress has been made, it is still challenging to generate high-quality dynamic faces with personalized details. This is mainly due to the inability of the general model to represent personalized details and the generalization problem to unseen controllable parameters. In this work, we propose Myportrait, a simple, general, and flexible framework for neural portrait generation. We incorporate personalized prior in a monocular video and morphable prior in 3D face morphable space for generating personalized details under novel controllable parameters. Our proposed framework supports both video-driven and audio-driven face animation given a monocular video of a single person. Distinguished by whether the test data is sent to training or not, our method provides a real-time online version and a high-quality offline version. Comprehensive experiments in various metrics demonstrate the superior performance of our method over the state-of-the-art methods. The code will be publicly available.
Abstract（参考訳）: 現実的な会話の顔を生成することは、コンピュータビジョンの分野で興味深い、長く続いたトピックである。かなりの進歩があったが、パーソナライズされた詳細で高品質な動的顔を生成することは依然として困難である。これは主に、パーソナライズされた詳細を表現できない一般モデルと、制御不能なパラメータの一般化問題に起因する。本研究では,神経ポートレート生成のための単純で汎用的で柔軟なフレームワークmyportraitを提案する。我々は,パーソナライズド・プリアーを単眼映像に組み込んで,新たな制御可能なパラメータでパーソナライズド・ディテールを生成する3d顔モーファブル空間にモーファブル・プリアーを組み込む。提案フレームワークは,一人のモノクロ映像が与えられた映像駆動と音声駆動の顔アニメーションの両方をサポートする。テストデータがトレーニングに送信されるかどうかによって、我々の方法はリアルタイムのオンラインバージョンと高品質のオフラインバージョンを提供する。各種メトリクスにおける総合的な実験は,最先端手法よりも優れた性能を示す。コードは公開される予定だ。

関連論文リスト

Low-Rank Head Avatar Personalization with Registers [36.7667914190956]
本稿では,頭部アバター生成のためのジェネリックモデルの低ランクパーソナライズのための新しい手法を提案する。我々のアプローチは目に見えない顔を忠実に捉え、既存の手法を定量的に質的に上回ります。
論文参考訳（メタデータ） (2025-06-02T17:53:14Z)
Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Video Diffusion Transformer [25.39030226963548]
ポートレートアニメーションのための予め訓練されたトランスフォーマーに基づくビデオ生成モデルの最初の応用について紹介する。提案手法は,ベンチマーク実験と新たに提案したワイルドデータセットを用いて検証する。
論文参考訳（メタデータ） (2024-12-01T08:54:30Z)
MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。 MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文参考訳（メタデータ） (2024-10-09T10:12:37Z)
Single Image, Any Face: Generalisable 3D Face Generation [59.9369171926757]
我々は,制約のない単一画像入力を伴う3次元顔を生成する新しいモデルGen3D-Faceを提案する。私たちの知る限りでは、これは1枚の画像からフォトリアリスティックな3D顔アバターを作るための最初の試みであり、ベンチマークである。
論文参考訳（メタデータ） (2024-09-25T14:56:37Z)
GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文参考訳（メタデータ） (2024-09-18T13:05:43Z)
SPARK: Self-supervised Personalized Real-time Monocular Face Capture [6.093606972415841]
現在の最先端技術では、パラメトリックな3D顔モデルを幅広いアイデンティティにわたってリアルタイムに再現することができる。本稿では,被写体の制約のない映像を先行情報として活用し,高精度な3次元顔撮影手法を提案する。
論文参考訳（メタデータ） (2024-09-12T12:30:04Z)
VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis [40.869862603815875]
VLOGGER (VLOGGER) は、単一の入力画像から音声駆動のヒューマンビデオを生成する方法である。空間的および時間的制御の両面からテキスト・ツー・イメージ・モデルを拡張する新しい拡散型アーキテクチャを用いている。ビデオ編集やパーソナライズにおける応用例を示す。
論文参考訳（メタデータ） (2024-03-13T17:59:02Z)
GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained 3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文参考訳（メタデータ） (2023-12-12T16:00:55Z)
PVP: Personalized Video Prior for Editable Dynamic Portraits using StyleGAN [33.49053731211931]
StyleGANは、人間の顔の写実的で正確な再構築において有望な結果を示している。本研究の目的は,顔のモノクロ映像を入力として,編集可能な動的肖像画を作成することである。ユーザーは新しい視点を作成し、外観を編集し、顔をアニメーションすることができる。
論文参考訳（メタデータ） (2023-06-29T17:26:51Z)
HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。テスト時,本手法は単眼のRGBビデオによって駆動される。
論文参考訳（メタデータ） (2023-03-25T13:56:33Z)
Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。我々は1枚の写真のみを識別基準として生の顔画像を操作する。私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文参考訳（メタデータ） (2021-04-22T15:10:26Z)
PVA: Pixel-aligned Volumetric Avatars [34.929560973779466]
少数の入力から人間の頭部の体積アバターを予測するための新しいアプローチを考案する。提案手法は,光度再レンダリングによる損失のみを前提としたエンドツーエンドで,明示的な3次元監視を必要とせずに訓練を行う。
論文参考訳（メタデータ） (2021-01-07T18:58:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。