論文の概要: Learning Disentangled Speech- and Expression-Driven Blendshapes for 3D Talking Face Animation
- arxiv url: http://arxiv.org/abs/2510.25234v1
- Date: Wed, 29 Oct 2025 07:29:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.201367
- Title: Learning Disentangled Speech- and Expression-Driven Blendshapes for 3D Talking Face Animation
- Title(参考訳): 3次元顔アニメーションのための非交叉型音声と表現型ブレンドファクチャの学習
- Authors: Yuxiang Mao, Zhijie Zhang, Zhiheng Zhang, Jiawei Liu, Chen Zeng, Shihong Xia,
- Abstract要約: 音声と感情の両方によって駆動される顔のアニメーションを線形加法問題としてモデル化する。
我々は、FLAMEモデルの表情と顎ポーズパラメータにマッピングできる、スピーチと感情によって駆動されるブレンドサップのセットを学習する。
提案手法は,リップシンク品質を損なうことなく,既存の方法に比べて感情表現性が優れている。
- 参考スコア(独自算出の注目度): 20.91704034858042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Expressions are fundamental to conveying human emotions. With the rapid advancement of AI-generated content (AIGC), realistic and expressive 3D facial animation has become increasingly crucial. Despite recent progress in speech-driven lip-sync for talking-face animation, generating emotionally expressive talking faces remains underexplored. A major obstacle is the scarcity of real emotional 3D talking-face datasets due to the high cost of data capture. To address this, we model facial animation driven by both speech and emotion as a linear additive problem. Leveraging a 3D talking-face dataset with neutral expressions (VOCAset) and a dataset of 3D expression sequences (Florence4D), we jointly learn a set of blendshapes driven by speech and emotion. We introduce a sparsity constraint loss to encourage disentanglement between the two types of blendshapes while allowing the model to capture inherent secondary cross-domain deformations present in the training data. The learned blendshapes can be further mapped to the expression and jaw pose parameters of the FLAME model, enabling the animation of 3D Gaussian avatars. Qualitative and quantitative experiments demonstrate that our method naturally generates talking faces with specified expressions while maintaining accurate lip synchronization. Perceptual studies further show that our approach achieves superior emotional expressivity compared to existing methods, without compromising lip-sync quality.
- Abstract(参考訳): 表現は人間の感情を伝えるための基本である。
AIGCの急速な進歩に伴い、現実的で表現力のある3D顔アニメーションがますます重要になっている。
近年, 音声合成による音声合成が進歩しているにもかかわらず, 感情的に表現的な発話顔の生成はいまだに未解明のままである。
大きな障害は、データキャプチャーのコストが高いため、実際の感情的な3D音声データセットの不足である。
これを解決するために、音声と感情の両方によって駆動される顔のアニメーションを線形加法問題としてモデル化する。
ニュートラル表現(VOCAset)と3次元表現シーケンス(Florence4D)のデータセットを併用した3次元会話顔データセットを用いて,音声と感情によって駆動される混合障害の集合を共同で学習する。
本研究では,2種類のブレンドサップ間の絡み合いを促進しつつ,モデルがトレーニングデータに存在する固有の二次的なクロスドメイン変形を捕捉できるようにするため,スペーサ性制約損失を導入する。
学習したブレンドサップはFLAMEモデルの表現と顎ポーズパラメータにさらにマッピングすることができ、3Dガウスアバターのアニメーションを可能にする。
定性的かつ定量的な実験により,本手法は口唇の正確な同期を維持しながら,特定の表情で自然に発話顔を生成することを示した。
さらに,本研究は,リップシンク品質を損なうことなく,既存の方法に比べて感情表現性が優れていることを示す。
関連論文リスト
- VisualSpeaker: Visually-Guided 3D Avatar Lip Synthesis [70.76837748695841]
視覚音声認識によって教師される写真リアルな微分可能レンダリングを用いてギャップを埋める新しい手法であるVisualSpeakerを提案する。
我々の貢献は、訓練中に訓練済みの視覚自動音声認識モデルを通して3Dガウス・スプティング・アバターレンダリングを通過させることによって得られる、知覚的な唇読影損失である。
MEADデータセットの評価は、VisualSpeakerが標準のLip Vertex Errorメトリックを56.1%改善し、生成されたアニメーションの知覚的品質を向上し、メッシュ駆動アニメーションの制御性を維持していることを示している。
論文 参考訳(メタデータ) (2025-07-08T15:04:17Z) - EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。
iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文 参考訳(メタデータ) (2025-03-14T02:54:22Z) - EmoVOCA: Speech-Driven Emotional 3D Talking Heads [12.161006152509653]
EmoVOCAと呼ばれる合成データセットを作成するための革新的なデータ駆動手法を提案する。
次に,3次元顔,音声ファイル,感情ラベル,強度値を入力として受け入れる感情的3次元音声ヘッドジェネレータを設計,訓練し,顔の表情特性で音声同期唇の動きをアニメーション化することを学ぶ。
論文 参考訳(メタデータ) (2024-03-19T16:33:26Z) - Breathing Life into Faces: Speech-driven 3D Facial Animation with
Natural Head Pose and Detailed Shape [19.431264557873117]
VividTalkerは、音声による3D顔アニメーションを促進するために設計された新しいフレームワークである。
顔のアニメーションを頭ポーズと口の動きに明確に切り離し、別々にエンコードする。
我々は,詳細な形状を持つ新しい3次元データセットを構築し,音声内容に合わせて顔の詳細を合成することを学ぶ。
論文 参考訳(メタデータ) (2023-10-31T07:47:19Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - EMOCA: Emotion Driven Monocular Face Capture and Animation [59.15004328155593]
本稿では,学習中の感情の深層的一貫性を損なうことによって,再構成された3次元表現が入力画像に表現された表現と一致することを確実にする。
In-the-wild emotion recognitionのタスクでは、人間の行動を分析する上での3D幾何の価値を強調しながら、最も優れた画像ベースの手法と同等に幾何学的アプローチを実践しています。
論文 参考訳(メタデータ) (2022-04-24T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。