論文の概要: EAI-Avatar: Emotion-Aware Interactive Talking Head Generation
- arxiv url: http://arxiv.org/abs/2508.18337v1
- Date: Mon, 25 Aug 2025 13:07:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.533457
- Title: EAI-Avatar: Emotion-Aware Interactive Talking Head Generation
- Title(参考訳): EAI-Avatar:感情に敏感な対話型ヘッドジェネレーション
- Authors: Haijie Yang, Zhenyu Zhang, Hao Tang, Jianjun Qian, Jian Yang,
- Abstract要約: EAI-Avatarは,ディヤドインタラクションのための新たな感情認識型音声ヘッド生成フレームワークである。
本手法は,会話状態と聴取状態とをシームレスに遷移させる,感情の豊かな時間的一貫した仮想アバターを生成する。
- 参考スコア(独自算出の注目度): 35.56554951482687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models have advanced rapidly, enabling impressive talking head generation that brings AI to life. However, most existing methods focus solely on one-way portrait animation. Even the few that support bidirectional conversational interactions lack precise emotion-adaptive capabilities, significantly limiting their practical applicability. In this paper, we propose EAI-Avatar, a novel emotion-aware talking head generation framework for dyadic interactions. Leveraging the dialogue generation capability of large language models (LLMs, e.g., GPT-4), our method produces temporally consistent virtual avatars with rich emotional variations that seamlessly transition between speaking and listening states. Specifically, we design a Transformer-based head mask generator that learns temporally consistent motion features in a latent mask space, capable of generating arbitrary-length, temporally consistent mask sequences to constrain head motions. Furthermore, we introduce an interactive talking tree structure to represent dialogue state transitions, where each tree node contains information such as child/parent/sibling nodes and the current character's emotional state. By performing reverse-level traversal, we extract rich historical emotional cues from the current node to guide expression synthesis. Extensive experiments demonstrate the superior performance and effectiveness of our method.
- Abstract(参考訳): 生成モデルは急速に進歩し、AIを生かした素晴らしいトーキングヘッド生成を可能にした。
しかし、既存のほとんどの手法は、一方通行のポートレートアニメーションにのみ焦点をあてている。
双方向の対話的相互作用をサポートする少数の人でさえ、正確な感情適応能力に欠けており、実用性を大幅に制限している。
本稿では,新たな感情認識型対話ヘッド生成フレームワークであるEAI-Avatarを提案する。
大規模言語モデル(LLMs, GPT-4)の対話生成機能を活用し, 時間的に一貫した仮想アバターを生成する。
具体的には,トランスフォーマーをベースとした頭部マスク生成装置を設計し,潜在マスク空間における時間的一貫した運動特徴を学習し,任意の長さの時間的一貫したマスク列を生成して頭部の動きを拘束する。
さらに,対話状態遷移を表す対話型対話木構造を導入し,各木ノードには子・親・兄弟ノードや現在のキャラクタの感情状態などの情報が含まれている。
逆レベルのトラバーサルを行うことで、現在のノードから豊富な歴史的感情的手がかりを抽出し、表現合成をガイドする。
大規模な実験により,本手法の優れた性能と有効性を示した。
関連論文リスト
- Taming Transformer for Emotion-Controllable Talking Face Generation [61.835295250047196]
本稿では,感情制御可能な発話顔生成タスクを個別に行うための新しい手法を提案する。
具体的には、2つの事前学習戦略を用いて、音声を独立したコンポーネントに分解し、映像を視覚トークンの組み合わせに定量化する。
我々は、複数の感情的オーディオで調整された映像の感情を制御するMEADデータセット上で実験を行う。
論文 参考訳(メタデータ) (2025-08-20T02:16:52Z) - MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding [48.54455964043634]
MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。
音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。
生成した結果は、産業生産パイプラインに便利に統合できます。
論文 参考訳(メタデータ) (2025-07-08T15:14:27Z) - Emotional Face-to-Speech [13.725558939494407]
既存の音声合成手法は、アイデンティティの特徴を捉える上で大きな可能性を秘めているが、感情表現を伴う多様な声のスタイルを生成するのに苦労している。
DemoFaceは、離散拡散変換器(DiT)とカリキュラム学習を利用する新しい生成フレームワークである。
本研究では,多様な条件付きシナリオに対処し,多条件生成と複雑な属性の解離を効果的に行うための予測自由誘導法を開発した。
論文 参考訳(メタデータ) (2025-02-03T04:48:50Z) - INFP: Audio-Driven Interactive Head Generation in Dyadic Conversations [11.101103116878438]
本稿では,Dyadic インタラクションのための新しい音声駆動型ヘッド生成フレームワーク INFP を提案する。
INFPは、モーションベースヘッドイミテーションステージとオーディオガイドモーションジェネレーションステージで構成される。
このような研究を円滑に進めるために,インターネットから収集したリッチな対話の大規模データセットであるDyConvを紹介した。
論文 参考訳(メタデータ) (2024-12-05T10:20:34Z) - EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion [49.55774551366049]
拡散モデルは、会話のヘッドジェネレーションの分野に革命をもたらしたが、長期的には表現性、制御可能性、安定性に課題に直面している。
これらの問題に対処するためのEmotiveTalkフレームワークを提案する。
実験結果から,EmotiveTalkは表現力のある対話型ヘッドビデオを生成することができ,長時間発生時の感情の制御性と安定性を保証できることがわかった。
論文 参考訳(メタデータ) (2024-11-23T04:38:51Z) - Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation [43.04371187071256]
本研究では,3次元アバターにおける鮮明で感情的な3次元共同音声ジェスチャを生成する新しい手法を提案する。
そこで我々は,ChatGPT-4と音声インペインティング手法を用いて,高忠実度感情遷移音声を構築する。
本手法は,1つの感情条件に適応して構築した最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2023-11-29T11:10:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。