論文の概要: AUHead: Realistic Emotional Talking Head Generation via Action Units Control
- arxiv url: http://arxiv.org/abs/2602.09534v1
- Date: Tue, 10 Feb 2026 08:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.457865
- Title: AUHead: Realistic Emotional Talking Head Generation via Action Units Control
- Title(参考訳): AUHead:アクションユニット制御によるリアルな感情的トーキングヘッドジェネレーション
- Authors: Jiayi Lyu, Leigang Qu, Wenjing Zhang, Hanyu Jiang, Kai Liu, Zhenglin Zhou, Xiaobo Xia, Jian Xue, Tat-Seng Chua,
- Abstract要約: リアルなトークヘッドビデオ生成は、仮想アバター、映画制作、インタラクティブシステムにとって重要である。
現在の方法は、きめ細かい感情制御が欠如しているため、ニュアンス的な感情表現に苦慮している。
本稿では、音声から感情制御、すなわちアクションユニット(AU)をアンタングルし、制御可能な生成を実現するための新しい2段階手法を提案する。
- 参考スコア(独自算出の注目度): 67.20660861826357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Realistic talking-head video generation is critical for virtual avatars, film production, and interactive systems. Current methods struggle with nuanced emotional expressions due to the lack of fine-grained emotion control. To address this issue, we introduce a novel two-stage method (AUHead) to disentangle fine-grained emotion control, i.e. , Action Units (AUs), from audio and achieve controllable generation. In the first stage, we explore the AU generation abilities of large audio-language models (ALMs), by spatial-temporal AU tokenization and an "emotion-then-AU" chain-of-thought mechanism. It aims to disentangle AUs from raw speech, effectively capturing subtle emotional cues. In the second stage, we propose an AU-driven controllable diffusion model that synthesizes realistic talking-head videos conditioned on AU sequences. Specifically, we first map the AU sequences into the structured 2D facial representation to enhance spatial fidelity, and then model the AU-vision interaction within cross-attention modules. To achieve flexible AU-quality trade-off control, we introduce an AU disentanglement guidance strategy during inference, further refining the emotional expressiveness and identity consistency of the generated videos. Results on benchmark datasets demonstrate that our approach achieves competitive performance in emotional realism, accurate lip synchronization, and visual coherence, significantly surpassing existing techniques. Our implementation is available at https://github.com/laura990501/AUHead_ICLR
- Abstract(参考訳): リアルなトークヘッドビデオ生成は、仮想アバター、映画制作、インタラクティブシステムにとって重要である。
現在の方法は、きめ細かい感情制御が欠如しているため、ニュアンス的な感情表現に苦慮している。
この問題に対処するために、音声から微粒な感情制御、すなわちアクションユニット(AU)を解き、制御可能な生成を実現するための新しい2段階法(AUHead)を導入する。
第1段階では、時空間AUトークン化と「感情-then-AU」チェーン・オブ・シント機構により、大規模オーディオ言語モデル(ALM)のAU生成能力について検討する。
生の音声からAUを遠ざけ、微妙な感情的な手がかりを効果的に捉えることを目的としている。
第2段階では、AUシーケンスを条件としたリアルなトーキングヘッド映像を合成するAU駆動制御可能な拡散モデルを提案する。
具体的には、まず、AUシーケンスを構造化された2次元顔表現にマッピングし、空間的忠実度を高め、次に、アテンションモジュール内のAUビジョン相互作用をモデル化する。
フレキシブルなAU品質トレードオフ制御を実現するために,推論中のAUのアンタングルメント誘導戦略を導入し,生成したビデオの感情表現性とアイデンティティの整合性を改善する。
ベンチマーク分析の結果,感情的リアリズム,正確な唇同期,視覚的コヒーレンスにおいて,既存の手法をはるかに超越した競合性能が得られた。
私たちの実装はhttps://github.com/laura990501/AUHead_ICLRで利用可能です。
関連論文リスト
- Talking Head Generation via AU-Guided Landmark Prediction [48.30051606459973]
顔行動単位(AUs)を用いた微粒化表現制御による音声駆動音声ヘッド生成のための2段階フレームワークを提案する。
第1段階では、変動運動生成器は、音声およびAU強度から時間的にコヒーレントなランドマークシーケンスを予測する。
第2段階では、拡散に基づく合成器がこれらのランドマークと参照画像に調和したリアルなリップ同期ビデオを生成する。
論文 参考訳(メタデータ) (2025-09-24T04:01:57Z) - EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - EAI-Avatar: Emotion-Aware Interactive Talking Head Generation [35.56554951482687]
EAI-Avatarは,ディヤドインタラクションのための新たな感情認識型音声ヘッド生成フレームワークである。
本手法は,会話状態と聴取状態とをシームレスに遷移させる,感情の豊かな時間的一貫した仮想アバターを生成する。
論文 参考訳(メタデータ) (2025-08-25T13:07:03Z) - Taming Transformer for Emotion-Controllable Talking Face Generation [61.835295250047196]
本稿では,感情制御可能な発話顔生成タスクを個別に行うための新しい手法を提案する。
具体的には、2つの事前学習戦略を用いて、音声を独立したコンポーネントに分解し、映像を視覚トークンの組み合わせに定量化する。
我々は、複数の感情的オーディオで調整された映像の感情を制御するMEADデータセット上で実験を行う。
論文 参考訳(メタデータ) (2025-08-20T02:16:52Z) - EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion [49.55774551366049]
拡散モデルは、会話のヘッドジェネレーションの分野に革命をもたらしたが、長期的には表現性、制御可能性、安定性に課題に直面している。
これらの問題に対処するためのEmotiveTalkフレームワークを提案する。
実験結果から,EmotiveTalkは表現力のある対話型ヘッドビデオを生成することができ,長時間発生時の感情の制御性と安定性を保証できることがわかった。
論文 参考訳(メタデータ) (2024-11-23T04:38:51Z) - EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。
感情のカテゴリや強度のきめ細かい制御を可能にする。
他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-11T13:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。