Fugu-MT 論文翻訳(概要): Media2Face: Co-speech Facial Animation Generation With Multi-Modality Guidance

論文の概要: Media2Face: Co-speech Facial Animation Generation With Multi-Modality Guidance

arxiv url: http://arxiv.org/abs/2401.15687v2
Date: Tue, 30 Jan 2024 08:23:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-31 11:32:59.939111
Title: Media2Face: Co-speech Facial Animation Generation With Multi-Modality Guidance
Title（参考訳）: media2face:マルチモダリティガイダンスによる顔アニメーション生成
Authors: Qingcheng Zhao, Pengyu Long, Qixuan Zhang, Dafei Qin, Han Liang, Longwen Zhang, Yingliang Zhang, Jingyi Yu, Lan Xu
Abstract要約: 本稿では,顔の形状と画像を高一般化された表現潜在空間にマッピングする,効率的な変分自動エンコーダを提案する。次に、GNPFAを用いて、多数のビデオから高品質な表現と正確な頭部ポーズを抽出する。 GNPFAラテント空間における拡散モデルMedia2Faceを提案する。
参考スコア（独自算出の注目度）: 41.692420421029695
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The synthesis of 3D facial animations from speech has garnered considerable attention. Due to the scarcity of high-quality 4D facial data and well-annotated abundant multi-modality labels, previous methods often suffer from limited realism and a lack of lexible conditioning. We address this challenge through a trilogy. We first introduce Generalized Neural Parametric Facial Asset (GNPFA), an efficient variational auto-encoder mapping facial geometry and images to a highly generalized expression latent space, decoupling expressions and identities. Then, we utilize GNPFA to extract high-quality expressions and accurate head poses from a large array of videos. This presents the M2F-D dataset, a large, diverse, and scan-level co-speech 3D facial animation dataset with well-annotated emotional and style labels. Finally, we propose Media2Face, a diffusion model in GNPFA latent space for co-speech facial animation generation, accepting rich multi-modality guidances from audio, text, and image. Extensive experiments demonstrate that our model not only achieves high fidelity in facial animation synthesis but also broadens the scope of expressiveness and style adaptability in 3D facial animation.
Abstract（参考訳）: 音声からの3次元顔アニメーションの合成は注目されている。高品質な4D顔データや豊富なマルチモダリティラベルが不足しているため、従来の手法は制限されたリアリズムとレキシブルコンディショニングの欠如に悩まされることが多い。私たちはこの課題を三部作で解決する。我々はまず,顔形状と画像の効率的な変分自動エンコーダである一般化ニューラルパラメトリック・ファシアル・アセット(GNPFA)を,高度に一般化された表現潜在空間にマッピングし,表現とアイデンティティを分離する。そして、GNPFAを用いて、多数のビデオから高品質な表現と正確な頭部ポーズを抽出する。 M2F-Dデータセットは、大きく、多様性があり、スキャンレベルの3D顔アニメーションデータセットである。最後に,音声,テキスト,画像からリッチなマルチモダリティ指導を受けながら,協調顔アニメーション生成のためのgnpfa潜在空間における拡散モデルであるmedia2faceを提案する。広範な実験により, 顔アニメーション合成において高い忠実性を実現するだけでなく, 3次元顔アニメーションにおける表現性, スタイル適応性の範囲を広げることができた。

関連論文リスト

Learning Disentangled Speech- and Expression-Driven Blendshapes for 3D Talking Face Animation [20.91704034858042]
音声と感情の両方によって駆動される顔のアニメーションを線形加法問題としてモデル化する。我々は、FLAMEモデルの表情と顎ポーズパラメータにマッピングできる、スピーチと感情によって駆動されるブレンドサップのセットを学習する。提案手法は,リップシンク品質を損なうことなく,既存の方法に比べて感情表現性が優れている。
論文参考訳（メタデータ） (2025-10-29T07:29:21Z)
EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。 iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文参考訳（メタデータ） (2025-03-14T02:54:22Z)
JoyVASA: Portrait and Animal Image Animation with Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation [10.003794924759765]
JoyVASAは、音声駆動型顔アニメーションにおける顔の動きと頭部の動きを生成する拡散法である。本研究では,静的な3次元顔表現から動的表情を分離する分離された顔表現フレームワークを提案する。第2段階では、拡散変圧器を訓練し、文字の同一性によらず、オーディオキューから直接動作シーケンスを生成する。
論文参考訳（メタデータ） (2024-11-14T06:13:05Z)
MMHead: Towards Fine-grained Multi-modal 3D Facial Animation [68.04052669266174]
大規模なマルチモーダル3次元顔アニメーションデータセットMMHeadを構築した。 MMHeadは、49時間の3D顔の動きシーケンス、音声、リッチな階層的なテキストアノテーションで構成されている。 MMHeadデータセットに基づいて,テキストによる3次元対話ヘッドアニメーションとテキストから3次元の顔の動き生成という,2つの新しいタスクのベンチマークを構築した。
論文参考訳（メタデータ） (2024-10-10T09:37:01Z)
Personalized Speech-driven Expressive 3D Facial Animation Synthesis with Style Control [1.8540152959438578]
現実的な顔アニメーションシステムは、自然性や妥当性の高次化を実現するために、アイデンティティ固有の話し方や顔の慣用性を考慮すべきである。音声駆動型表情表現3次元顔画像合成フレームワークを提案する(スタイルと呼ばれる)。我々のフレームワークはエンドツーエンドで訓練されており、3つの主要コンポーネントを持つ非自己回帰エンコーダデコーダアーキテクチャを備えている。
論文参考訳（メタデータ） (2023-10-25T21:22:28Z)
DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文参考訳（メタデータ） (2023-08-23T04:14:55Z)
Audio-Driven Talking Face Generation with Diverse yet Realistic Facial Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。 DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文参考訳（メタデータ） (2023-04-18T12:36:15Z)
FaceXHuBERT: Text-less Speech-driven E(X)pressive 3D Facial Animation Synthesis Using Self-Supervised Speech Representation Learning [0.0]
FaceXHuBERTは、テキストレス音声駆動の3D顔アニメーション生成方法である。背景雑音に対して非常に頑丈で、様々な状況で録音された音声を処理できる。アニメーションの写実性に関しては78%の精度で優れた結果が得られる。
論文参考訳（メタデータ） (2023-03-09T17:05:19Z)
MeshTalk: 3D Face Animation from Speech using Cross-Modality Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文参考訳（メタデータ） (2021-04-16T17:05:40Z)
Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文参考訳（メタデータ） (2020-08-11T22:28:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。