論文の概要: EMOPortraits: Emotion-enhanced Multimodal One-shot Head Avatars
- arxiv url: http://arxiv.org/abs/2404.19110v1
- Date: Mon, 29 Apr 2024 21:23:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 16:03:12.871159
- Title: EMOPortraits: Emotion-enhanced Multimodal One-shot Head Avatars
- Title(参考訳): EMOPortraits:マルチモーダル・ワンショット・アバター
- Authors: Nikita Drobyshev, Antoni Bigata Casademunt, Konstantinos Vougioukas, Zoe Landgraf, Stavros Petridis, Maja Pantic,
- Abstract要約: MegaPortraitsモデルは、この領域で最先端の結果を示している。
EMOPortraitsモデルを紹介します。 強靭で非対称な顔表現を忠実にサポートするモデルの能力を強化する。
そこで本研究では,多彩な表情と非対称な表情を特徴とする新しい多視点ビデオデータセットを提案する。
- 参考スコア(独自算出の注目度): 36.96390906514729
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Head avatars animated by visual signals have gained popularity, particularly in cross-driving synthesis where the driver differs from the animated character, a challenging but highly practical approach. The recently presented MegaPortraits model has demonstrated state-of-the-art results in this domain. We conduct a deep examination and evaluation of this model, with a particular focus on its latent space for facial expression descriptors, and uncover several limitations with its ability to express intense face motions. To address these limitations, we propose substantial changes in both training pipeline and model architecture, to introduce our EMOPortraits model, where we: Enhance the model's capability to faithfully support intense, asymmetric face expressions, setting a new state-of-the-art result in the emotion transfer task, surpassing previous methods in both metrics and quality. Incorporate speech-driven mode to our model, achieving top-tier performance in audio-driven facial animation, making it possible to drive source identity through diverse modalities, including visual signal, audio, or a blend of both. We propose a novel multi-view video dataset featuring a wide range of intense and asymmetric facial expressions, filling the gap with absence of such data in existing datasets.
- Abstract(参考訳): 視覚信号でアニメーションされたヘッドアバターは、特に運転者がアニメーションキャラクターと異なるクロスドライブ合成において、難しいが非常に実用的なアプローチとして人気を博している。
最近発表されたMegaPortraitsモデルは、この領域で最先端の結果を示している。
本研究では,このモデルについて,表情記述子に潜伏する空間に特に焦点をあて,顔の動きを強く表現する能力の限界を明らかにする。
これらの制限に対処するために、トレーニングパイプラインとモデルアーキテクチャの両方に大きな変更を提案し、EMOPortraitsモデルを導入しました。
我々のモデルに音声駆動型モードを組み込むことで、音声駆動型顔アニメーションにおいて最上位のパフォーマンスを実現し、視覚信号、音声、または両者のブレンドを含む様々なモーダルを通してソースアイデンティティを駆動できるようにする。
既存のデータセットにそのようなデータがない場合にギャップを埋める、広範囲の強靭で非対称な表情を特徴とする、新しい多視点ビデオデータセットを提案する。
関連論文リスト
- X-Portrait: Expressive Portrait Animation with Hierarchical Motion Attention [18.211762995744337]
本稿では,表現的かつ時間的コヒーレントなポートレートアニメーションを生成するための,革新的な条件拡散モデルであるX-Portraitを提案する。
外観参照として1つのポートレートが与えられた場合、駆動ビデオから得られる動きをアニメーション化し、非常にダイナミックかつ微妙な表情をキャプチャすることを目的としている。
実験により,X-ポートレートの多彩な顔画像および表現力のある運転シーケンスに対する普遍的効果が示された。
論文 参考訳(メタデータ) (2024-03-23T20:30:28Z) - EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with
Audio2Video Diffusion Model under Weak Conditions [20.062289952818666]
本稿では,直接音声合成手法を用いた新しいフレームワーク EMO を提案する。
本手法は,映像全体を通してシームレスなフレーム遷移と一貫したアイデンティティ保存を保証し,高い表現力とライフスタイルのアニメーションを実現する。
論文 参考訳(メタデータ) (2024-02-27T13:10:11Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial
Expression Recognition in Videos [94.49851812388061]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - Drivable Volumetric Avatars using Texel-Aligned Features [52.89305658071045]
光テレプレゼンスは、動的に合成された外観を実現するために、高忠実度ボディモデリングと忠実な運転の両方を必要とする。
本稿では,現実人のフルボディアバターをモデリングし,駆動する際の2つの課題に対処するエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-20T09:28:16Z) - Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation [61.8546794105462]
我々は,一組のNeRFを用いて,繊細な音声駆動のポートレートを生成するセマンティック・アウェア・ポーティング・ポートレート・ネRF(SSP-NeRF)を提案する。
まず,音声によるボリュームレンダリングを容易にする解析機能を備えたSemantic-Aware Dynamic Ray Smplingモジュールを提案する。
1つの統合神経放射場におけるポートレートレンダリングを可能にするため、Torso変形モジュールは、大規模な非剛性胴体運動を安定させるように設計されている。
論文 参考訳(メタデータ) (2022-01-19T18:54:41Z) - Multimodal Face Synthesis from Visual Attributes [85.87796260802223]
本稿では,マルチモーダル顔画像を保存するIDを同時に合成する新たな生成対向ネットワークを提案する。
実画像と偽画像の区別を行う識別装置にマルチモーダルストレッチインモジュールを導入。
論文 参考訳(メタデータ) (2021-04-09T13:47:23Z) - Multi Modal Adaptive Normalization for Audio to Video Generation [18.812696623555855]
本稿では,音声信号と人物の単一画像とを入力として,任意の長さの人物映像を合成するマルチモーダル適応正規化(MAN)アーキテクチャを提案する。
このアーキテクチャでは,マルチモーダル適応正規化,キーポイントヒートマップ予測器,光フロー予測器,およびクラスアクティベーションマップ[58]ベースのレイヤを用いて,表情成分の動きを学習する。
論文 参考訳(メタデータ) (2020-12-14T07:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。