論文の概要: PESTalk: Speech-Driven 3D Facial Animation with Personalized Emotional Styles
- arxiv url: http://arxiv.org/abs/2512.05121v1
- Date: Mon, 13 Oct 2025 13:21:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.392156
- Title: PESTalk: Speech-Driven 3D Facial Animation with Personalized Emotional Styles
- Title(参考訳): PESTalk:パーソナライズされた感情スタイルによる音声駆動型3次元顔アニメーション
- Authors: Tianshun Han, Benjia Zhou, Ajian Liu, Yanyan Liang, Du Zhang, Zhen Lei, Jun Wan,
- Abstract要約: PESTalkは、音声から直接パーソナライズされた感情スタイルを持つ3D顔アニメーションを生成する新しい方法である。
これは、時間と周波数ドメインの両方のオーディオ機能をキャプチャするDual-Stream Emotion Extractor (DSEE)を導入することで、既存のアプローチの重要な制限を克服している。
また、音声プリント特性に基づいて個々の表現パターンをモデル化する感情スタイルモデリングモジュール(ESMM)も導入している。
- 参考スコア(独自算出の注目度): 28.64103504776712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: PESTalk is a novel method for generating 3D facial animations with personalized emotional styles directly from speech. It overcomes key limitations of existing approaches by introducing a Dual-Stream Emotion Extractor (DSEE) that captures both time and frequency-domain audio features for fine-grained emotion analysis, and an Emotional Style Modeling Module (ESMM) that models individual expression patterns based on voiceprint characteristics. To address data scarcity, the method leverages a newly constructed 3D-EmoStyle dataset. Evaluations demonstrate that PESTalk outperforms state-of-the-art methods in producing realistic and personalized facial animations.
- Abstract(参考訳): PESTalkは、音声から直接パーソナライズされた感情スタイルを持つ3D顔アニメーションを生成する新しい方法である。
感情分析のための時間領域と周波数領域の両方のオーディオ特徴をキャプチャするDual-Stream Emotion Extractor (DSEE)と、音声プリント特性に基づいて個々の表現パターンをモデル化するEmotional Style Modeling Module (ESMM)を導入することで、既存のアプローチの重要な制限を克服する。
データ不足に対処するため、新たに構築された3D-EmoStyleデータセットを活用する。
PESTalkは、現実的でパーソナライズされた顔アニメーションを作成する上で、最先端の手法よりも優れていることを示す。
関連論文リスト
- MemoryTalker: Personalized Speech-Driven 3D Facial Animation via Audio-Guided Stylization [8.422709223307722]
音声駆動型3D顔アニメーションは、話者の話し方に合わせて、与えられた音声から現実的な顔の動きシーケンスを合成することを目的としている。
以前の作業では、スピーカーのクラスラベルや推論時に追加の3D顔メッシュなど、事前の作業が必要になることが多い。
本稿では,音声入力のみで発話スタイルを反映することで,現実的で正確な3次元顔の動き合成を可能にするMemoryTalkerを提案する。
論文 参考訳(メタデータ) (2025-07-28T06:47:59Z) - EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。
iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文 参考訳(メタデータ) (2025-03-14T02:54:22Z) - MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文 参考訳(メタデータ) (2024-10-09T10:12:37Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。