論文の概要: DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion
- arxiv url: http://arxiv.org/abs/2310.05934v1
- Date: Wed, 23 Aug 2023 04:14:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 04:03:06.954142
- Title: DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion
- Title(参考訳): DF-3DFace:拡散を伴う1対1の3次元顔アニメーション
- Authors: Se Jin Park, Joanna Hong, Minsu Kim, Yong Man Ro
- Abstract要約: 拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
- 参考スコア(独自算出の注目度): 68.85904927374165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-driven 3D facial animation has gained significant attention for its
ability to create realistic and expressive facial animations in 3D space based
on speech. Learning-based methods have shown promising progress in achieving
accurate facial motion synchronized with speech. However, one-to-many nature of
speech-to-3D facial synthesis has not been fully explored: while the lip
accurately synchronizes with the speech content, other facial attributes beyond
speech-related motions are variable with respect to the speech. To account for
the potential variance in the facial attributes within a single speech, we
propose DF-3DFace, a diffusion-driven speech-to-3D face mesh synthesis.
DF-3DFace captures the complex one-to-many relationships between speech and 3D
face based on diffusion. It concurrently achieves aligned lip motion by
exploiting audio-mesh synchronization and masked conditioning. Furthermore, the
proposed method jointly models identity and pose in addition to facial motions
so that it can generate 3D face animation without requiring a reference
identity mesh and produce natural head poses. We contribute a new large-scale
3D facial mesh dataset, 3D-HDTF to enable the synthesis of variations in
identities, poses, and facial motions of 3D face mesh. Extensive experiments
demonstrate that our method successfully generates highly variable facial
shapes and motions from speech and simultaneously achieves more realistic
facial animation than the state-of-the-art methods.
- Abstract(参考訳): 音声駆動の3d顔アニメーションは、音声に基づく3d空間でリアルで表現力に富んだ顔アニメーションを作成できることで、大きな注目を集めている。
学習に基づく手法は、音声に同期した正確な顔の動きを達成するための有望な進歩を示している。
しかし、音声から3Dまでの顔合成の1対多の性質は、唇が正確に音声内容と同期するのに対して、音声に関する動き以外の他の顔属性は、音声に関して変動する。
単一音声における顔特性の潜在的なばらつきを考慮し,拡散駆動型音声から3Dの顔メッシュ合成であるDF-3DFaceを提案する。
DF-3DFaceは拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
オーディオ・メッシュ同期とマスキングコンディショニングを活用し、アライメントされた唇動作を同時に達成する。
さらに,提案手法は,顔の動きに加え,顔の同一性や自然な頭部のポーズを伴わずに3次元顔のアニメーションを生成できるようにする。
大規模な3次元顔メッシュデータセットである3D-HDTFを用いて,3次元顔メッシュのアイデンティティ,ポーズ,顔の動きの変化を合成する。
広汎な実験により,本手法は音声から高度に可変な顔の形状と動きを生成できることが実証された。
関連論文リスト
- MMHead: Towards Fine-grained Multi-modal 3D Facial Animation [68.04052669266174]
大規模なマルチモーダル3次元顔アニメーションデータセットMMHeadを構築した。
MMHeadは、49時間の3D顔の動きシーケンス、音声、リッチな階層的なテキストアノテーションで構成されている。
MMHeadデータセットに基づいて,テキストによる3次元対話ヘッドアニメーションとテキストから3次元の顔の動き生成という,2つの新しいタスクのベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-10T09:37:01Z) - 3DFacePolicy: Speech-Driven 3D Facial Animation with Diffusion Policy [1.3499500088995464]
本稿では,3次元表情予測のための拡散ポリシーモデルである3DFacePolicyを提案する。
方法は、変動的で現実的な人間の顔の動きを生成する。
実験により,本手法は顔面運動の変動や動的動作に有効であることが確認された。
論文 参考訳(メタデータ) (2024-09-17T02:30:34Z) - Media2Face: Co-speech Facial Animation Generation With Multi-Modality
Guidance [41.692420421029695]
本稿では,顔の形状と画像を高一般化された表現潜在空間にマッピングする,効率的な変分自動エンコーダを提案する。
次に、GNPFAを用いて、多数のビデオから高品質な表現と正確な頭部ポーズを抽出する。
GNPFAラテント空間における拡散モデルMedia2Faceを提案する。
論文 参考訳(メタデータ) (2024-01-28T16:17:59Z) - 3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing [22.30870274645442]
3DiFACEは、音声による顔のアニメーションと編集をパーソナライズする新しい方法である。
提案手法は,既存の最先端技術より優れ,忠実度と多様性が向上した音声駆動型アニメーションを実現する。
論文 参考訳(メタデータ) (2023-12-01T19:01:05Z) - Breathing Life into Faces: Speech-driven 3D Facial Animation with
Natural Head Pose and Detailed Shape [19.431264557873117]
VividTalkerは、音声による3D顔アニメーションを促進するために設計された新しいフレームワークである。
顔のアニメーションを頭ポーズと口の動きに明確に切り離し、別々にエンコードする。
我々は,詳細な形状を持つ新しい3次元データセットを構築し,音声内容に合わせて顔の詳細を合成することを学ぶ。
論文 参考訳(メタデータ) (2023-10-31T07:47:19Z) - FaceDiffuser: Speech-Driven 3D Facial Animation Synthesis Using
Diffusion [0.0]
音声駆動型顔アニメーションを生成するための非決定論的ディープラーニングモデルFaceDiffuserを提案する。
提案手法は拡散法に基づいて,事前学習した大規模音声表現モデル HuBERT を用いて音声入力を符号化する。
また、ブレンドシェープに基づくリップキャラクタに基づく、新たな社内データセットも導入する。
論文 参考訳(メタデータ) (2023-09-20T13:33:00Z) - Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-04-18T12:36:15Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。