論文の概要: EmoCAST: Emotional Talking Portrait via Emotive Text Description
- arxiv url: http://arxiv.org/abs/2508.20615v1
- Date: Thu, 28 Aug 2025 10:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.320929
- Title: EmoCAST: Emotional Talking Portrait via Emotive Text Description
- Title(参考訳): EmoCAST:Emotive Text Descriptionによる感情的なトーキングポートレート
- Authors: Yiguo Jiang, Xiaodong Cun, Yong Zhang, Yudian Zheng, Fan Tang, Chi-Man Pun,
- Abstract要約: EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 56.42674612728354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotional talking head synthesis aims to generate talking portrait videos with vivid expressions. Existing methods still exhibit limitations in control flexibility, motion naturalness, and expression quality. Moreover, currently available datasets are primarily collected in lab settings, further exacerbating these shortcomings. Consequently, these limitations substantially hinder practical applications in real-world scenarios. To address these challenges, we propose EmoCAST, a diffusion-based framework with two key modules for precise text-driven emotional synthesis. In appearance modeling, emotional prompts are integrated through a text-guided decoupled emotive module, enhancing the spatial knowledge to improve emotion comprehension. To improve the relationship between audio and emotion, we introduce an emotive audio attention module to capture the interplay between controlled emotion and driving audio, generating emotion-aware features to guide more precise facial motion synthesis. Additionally, we construct an emotional talking head dataset with comprehensive emotive text descriptions to optimize the framework's performance. Based on the proposed dataset, we propose an emotion-aware sampling training strategy and a progressive functional training strategy that further improve the model's ability to capture nuanced expressive features and achieve accurate lip-synchronization. Overall, EmoCAST achieves state-of-the-art performance in generating realistic, emotionally expressive, and audio-synchronized talking-head videos. Project Page: https://github.com/GVCLab/EmoCAST
- Abstract(参考訳): 感情的な発話ヘッド合成は、鮮やかな表現で話す肖像画ビデオを生成することを目的としている。
既存の方法は、制御の柔軟性、動きの自然さ、表現の質に制限がある。
さらに、現在利用可能なデータセットは、主にラボの設定で収集され、これらの欠点をさらに悪化させる。
その結果、これらの制限は現実世界のシナリオにおける実践的な応用を著しく妨げている。
これらの課題に対処するために,テキスト駆動感情合成のための2つの重要なモジュールを持つ拡散型フレームワークであるEmoCASTを提案する。
外観モデリングでは、感情的なプロンプトは、テキスト誘導の分離された感情的モジュールを通して統合され、空間的知識を高めて感情的理解を改善する。
音声と感情の関係を改善するために,制御された感情と駆動する音声との相互作用を捉え,感情認識機能を生成し,より正確な顔の動き合成を導く。
さらに,本フレームワークの性能を最適化するために,情緒的対話ヘッドデータセットを包括的な動機的テキスト記述で構築する。
提案したデータセットをベースとして,感情認識型サンプリングトレーニング戦略と,モデルがニュアンスのある表現的特徴を捉える能力を向上し,正確な唇同期を実現するプログレッシブ機能トレーニング戦略を提案する。
全体として、EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現している。
Project Page: https://github.com/GVCLab/EmoCAST
関連論文リスト
- Taming Transformer for Emotion-Controllable Talking Face Generation [61.835295250047196]
本稿では,感情制御可能な発話顔生成タスクを個別に行うための新しい手法を提案する。
具体的には、2つの事前学習戦略を用いて、音声を独立したコンポーネントに分解し、映像を視覚トークンの組み合わせに定量化する。
我々は、複数の感情的オーディオで調整された映像の感情を制御するMEADデータセット上で実験を行う。
論文 参考訳(メタデータ) (2025-08-20T02:16:52Z) - Think-Before-Draw: Decomposing Emotion Semantics & Fine-Grained Controllable Expressive Talking Head Generation [7.362433184546492]
コンピュータビジョンとマルチモーダル人工知能の交差点における重要な研究領域として、感情的トーキー生成が出現している。
本研究では,2つの課題に対処するThink-Before-Drawフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-17T03:33:46Z) - MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding [48.54455964043634]
MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。
音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。
生成した結果は、産業生産パイプラインに便利に統合できます。
論文 参考訳(メタデータ) (2025-07-08T15:14:27Z) - EmoSphere++: Emotion-Controllable Zero-Shot Text-to-Speech via Emotion-Adaptive Spherical Vector [26.656512860918262]
EmoSphere++は感情制御可能なゼロショットTSモデルで、感情のスタイルや強度をコントロールでき、自然な人間の音声に似ています。
人間のアノテーションを使わずに感情のスタイルや強度をモデル化する,感情適応型球面ベクトルを新たに導入する。
条件付きフローマッチングに基づくデコーダを用いて,数ステップのサンプリングで高品質で表現力のある感情的TSを実現する。
論文 参考訳(メタデータ) (2024-11-04T21:33:56Z) - EmoGene: Audio-Driven Emotional 3D Talking-Head Generation [47.6666060652434]
EmoGeneは、正確な感情表現を備えた高忠実でオーディオ駆動型ビデオポートレートのためのフレームワークである。
本手法では,顔のランドマークを生成するために,可変オートエンコーダ(VAE)ベースのオーディオ・トゥ・モーション・モジュールを用いる。
NeRFベースの感情ビデオモジュールは、リアルな感情的なトーキングヘッドビデオを表示する。
論文 参考訳(メタデータ) (2024-10-07T08:23:05Z) - EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。
感情のカテゴリや強度のきめ細かい制御を可能にする。
他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-11T13:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。