論文の概要: CapTalk: Text-Guided Stylization and Speech-Driven 3D Head Animation
- arxiv url: http://arxiv.org/abs/2605.29316v1
- Date: Thu, 28 May 2026 03:46:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.646095
- Title: CapTalk: Text-Guided Stylization and Speech-Driven 3D Head Animation
- Title(参考訳): CapTalk: テキストガイドによるスティル化と音声駆動型3Dヘッドアニメーション
- Authors: Xuangeng Chu, Yuan Gan, Ziteng Cui, Shuhong Liu, Jian Wang, Bing Zhou, Tatsuya Harada,
- Abstract要約: 我々は,話し方と文字感情のテキスト記述と,駆動音声ストリームの両方を入力するモデルを構築した。
我々のモデルは、推論中の動的感情制御をサポートし、ターゲット感情が音声全体にわたって変化するシナリオを処理できる。
- 参考スコア(独自算出の注目度): 44.15338767557179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-driven 3D facial animation aims to generate synchronized lip movements and vivid facial expressions from arbitrary audio clips. While existing methods can produce synchronized lip motions, they often rely on predefined identity or style latent features, which limits users' ability to freely control speaking styles. Moreover, applying a fixed style or identity to an entire audio segment typically results in facial animation styles that do not adapt to the emotional content of the audio. To address these challenges, we revisit the entanglement between style and emotion, construct a large-scale dataset with textual descriptions of both style and emotion, and propose a novel talking head generation framework that enables separate control over style and emotion. Our model takes as input both textual descriptions of speaking style and character emotion, as well as the driving audio stream, enabling real-time generation of highly synchronized lip movements and facial expressions that match the provided descriptions. Furthermore, our model supports dynamic emotion control during inference, allowing it to handle scenarios where the target emotion changes throughout the speech.
- Abstract(参考訳): 音声駆動型3D顔アニメーションは、任意の音声クリップから、同期した唇の動きと鮮やかな表情を生成することを目的としている。
既存の手法は、同期された唇の動きを生成できるが、しばしば事前に定義されたアイデンティティやスタイルの潜在機能に依存しており、ユーザーは自由に話すスタイルを制御できる能力に制限される。
さらに、オーディオセグメント全体に固定されたスタイルやアイデンティティを適用すると、通常、音声の感情的内容に適応しない顔のアニメーションスタイルが得られる。
これらの課題に対処するために、スタイルと感情の絡み合いを再考し、スタイルと感情の双方をテキストで記述した大規模データセットを構築し、スタイルと感情の分離制御を可能にする新しい音声ヘッド生成フレームワークを提案する。
提案モデルでは, 発話スタイルと文字感情のテキスト記述と, 駆動音声ストリームの両方を入力とし, 提示した記述にマッチした, 高度に同期した唇の動きと表情をリアルタイムに生成する。
さらに、本モデルでは、推論中の動的感情制御をサポートし、ターゲット感情が音声全体にわたって変化するシナリオを処理できる。
関連論文リスト
- MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding [48.54455964043634]
MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。
音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。
生成した結果は、産業生産パイプラインに便利に統合できます。
論文 参考訳(メタデータ) (2025-07-08T15:14:27Z) - Personalized Speech-driven Expressive 3D Facial Animation Synthesis with
Style Control [1.8540152959438578]
現実的な顔アニメーションシステムは、自然性や妥当性の高次化を実現するために、アイデンティティ固有の話し方や顔の慣用性を考慮すべきである。
音声駆動型表情表現3次元顔画像合成フレームワークを提案する(スタイルと呼ばれる)。
我々のフレームワークはエンドツーエンドで訓練されており、3つの主要コンポーネントを持つ非自己回帰エンコーダデコーダアーキテクチャを備えている。
論文 参考訳(メタデータ) (2023-10-25T21:22:28Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。