論文の概要: MMHead: Towards Fine-grained Multi-modal 3D Facial Animation
- arxiv url: http://arxiv.org/abs/2410.07757v1
- Date: Thu, 10 Oct 2024 09:37:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 15:06:11.537223
- Title: MMHead: Towards Fine-grained Multi-modal 3D Facial Animation
- Title(参考訳): MMHead: きめ細かいマルチモーダル3次元顔アニメーションを目指して
- Authors: Sijing Wu, Yunhao Li, Yichao Yan, Huiyu Duan, Ziwei Liu, Guangtao Zhai,
- Abstract要約: 大規模なマルチモーダル3次元顔アニメーションデータセットMMHeadを構築した。
MMHeadは、49時間の3D顔の動きシーケンス、音声、リッチな階層的なテキストアノテーションで構成されている。
MMHeadデータセットに基づいて,テキストによる3次元対話ヘッドアニメーションとテキストから3次元の顔の動き生成という,2つの新しいタスクのベンチマークを構築した。
- 参考スコア(独自算出の注目度): 68.04052669266174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D facial animation has attracted considerable attention due to its extensive applications in the multimedia field. Audio-driven 3D facial animation has been widely explored with promising results. However, multi-modal 3D facial animation, especially text-guided 3D facial animation is rarely explored due to the lack of multi-modal 3D facial animation dataset. To fill this gap, we first construct a large-scale multi-modal 3D facial animation dataset, MMHead, which consists of 49 hours of 3D facial motion sequences, speech audios, and rich hierarchical text annotations. Each text annotation contains abstract action and emotion descriptions, fine-grained facial and head movements (i.e., expression and head pose) descriptions, and three possible scenarios that may cause such emotion. Concretely, we integrate five public 2D portrait video datasets, and propose an automatic pipeline to 1) reconstruct 3D facial motion sequences from monocular videos; and 2) obtain hierarchical text annotations with the help of AU detection and ChatGPT. Based on the MMHead dataset, we establish benchmarks for two new tasks: text-induced 3D talking head animation and text-to-3D facial motion generation. Moreover, a simple but efficient VQ-VAE-based method named MM2Face is proposed to unify the multi-modal information and generate diverse and plausible 3D facial motions, which achieves competitive results on both benchmarks. Extensive experiments and comprehensive analysis demonstrate the significant potential of our dataset and benchmarks in promoting the development of multi-modal 3D facial animation.
- Abstract(参考訳): 3次元顔アニメーションは、マルチメディア分野に広く応用されているため、かなりの注目を集めている。
オーディオ駆動の3D顔アニメーションは、有望な結果によって広く研究されている。
しかし、マルチモーダルな3D顔アニメーション、特にテキスト誘導型3D顔アニメーションは、マルチモーダルな3D顔アニメーションデータセットが欠如しているため、ほとんど調査されない。
このギャップを埋めるために、我々はまず大規模なマルチモーダルな3次元顔アニメーションデータセットMMHeadを構築した。
それぞれのテキストアノテーションには、抽象的なアクションと感情の記述、きめ細かい顔と頭の動き(表現と頭ポーズ)の記述、そしてそのような感情を引き起こす可能性のある3つのシナリオが含まれている。
具体的には、5つの公開2次元ポートレートビデオデータセットを統合し、自動パイプラインを提案する。
1)モノクロ映像から3次元顔の動き系列を再構成し,
2) AU検出とChatGPTの助けを借りて階層的なテキストアノテーションを得る。
MMHeadデータセットに基づいて,テキストによる3次元対話ヘッドアニメーションとテキストから3次元の顔の動き生成という,2つの新しいタスクのベンチマークを構築した。
さらに,MM2Face という,シンプルだが効率的なVQ-VAE ベースの手法を提案し,マルチモーダル情報を統一し,多種多様な3次元顔の動きを生成する。
大規模な実験と包括的分析により、マルチモーダルな3D顔アニメーションの開発を促進する上で、我々のデータセットとベンチマークの有意義な可能性を実証した。
関連論文リスト
- Media2Face: Co-speech Facial Animation Generation With Multi-Modality
Guidance [41.692420421029695]
本稿では,顔の形状と画像を高一般化された表現潜在空間にマッピングする,効率的な変分自動エンコーダを提案する。
次に、GNPFAを用いて、多数のビデオから高品質な表現と正確な頭部ポーズを抽出する。
GNPFAラテント空間における拡散モデルMedia2Faceを提案する。
論文 参考訳(メタデータ) (2024-01-28T16:17:59Z) - Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-01-16T17:04:30Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Audio-Driven 3D Facial Animation from In-the-Wild Videos [16.76533748243908]
任意のオーディオクリップが与えられたとき、オーディオ駆動の3D顔アニメーションは、ライフスタイルの唇の動きと3Dヘッドのための表情を生成することを目的としている。
既存の方法は、通常、限られた数のオーディオ3Dスキャンペアを含む限られたパブリックな3Dデータセットを使用してモデルをトレーニングすることに依存する。
そこで本研究では,3次元顔アニメーションモデルをトレーニングするために,この2次元対話ヘッドビデオを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-20T13:53:05Z) - MMFace4D: A Large-Scale Multi-Modal 4D Face Dataset for Audio-Driven 3D
Face Animation [16.989858343787365]
MMFace4Dは431のアイデンティティ,35,904のシーケンス,390万フレームからなる大規模マルチモーダル4D(3D)顔データセットである。
MMFace4Dは、15歳から68歳までのアクターを包含し、0.7秒から11.4秒の文を記録できる、非常に多様な主題とコーパスのセットである。
我々は、音声駆動型3D顔アニメーションのための非自己回帰フレームワークを構築する。我々のフレームワークは、顔アニメーションの地域的・複合的性質を考察し、現代的最先端アプローチを質的に超越している。
論文 参考訳(メタデータ) (2023-03-17T06:43:08Z) - 3D-TalkEmo: Learning to Synthesize 3D Emotional Talking Head [13.305263646852087]
3D-TalkEmoは、様々な感情を持つ3Dトークヘッドアニメーションを生成するディープニューラルネットワークです。
私たちはまた、オーディオとビデオの同期、豊富なコーパス、異なる人のさまざまな感情状態を含む大きな3dデータセットも作成します。
論文 参考訳(メタデータ) (2021-04-25T02:48:19Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - DeepFaceFlow: In-the-wild Dense 3D Facial Motion Estimation [56.56575063461169]
DeepFaceFlowは、3D非剛体顔の流れを推定するための堅牢で高速で高精度なフレームワークである。
私たちのフレームワークは、2つの非常に大規模な顔ビデオデータセットでトレーニングされ、テストされました。
登録された画像に対して,60fpsで3次元フローマップを生成する。
論文 参考訳(メタデータ) (2020-05-14T23:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。