論文の概要: HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters
- arxiv url: http://arxiv.org/abs/2505.20156v1
- Date: Mon, 26 May 2025 15:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.589576
- Title: HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters
- Title(参考訳): HunyuanVideo-Avatar:マルチキャラクタのための高忠実なオーディオ駆動人間アニメーション
- Authors: Yi Chen, Sen Liang, Zixiang Zhou, Ziyao Huang, Yifeng Ma, Junshu Tang, Qin Lin, Yuan Zhou, Qinglin Lu,
- Abstract要約: HunyuanVideo-Avatarは動的、感情制御可能、マルチキャラクタ対話ビデオを同時に生成できるモデルである。
キャラクタイメージインジェクションモジュールは、従来の追加ベースのキャラクタコンディショニングスキームを置き換えるように設計されている。
AEM(Audio Emotion Module)を導入し、感情参照画像から感情手がかりを抽出し、ターゲット生成ビデオに転送する。
音声駆動型キャラクタを潜在レベルフェイスマスクで分離するために, 顔認識型オーディオアダプタ (FAA) を提案する。
- 参考スコア(独自算出の注目度): 14.594698765723756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed significant progress in audio-driven human animation. However, critical challenges remain in (i) generating highly dynamic videos while preserving character consistency, (ii) achieving precise emotion alignment between characters and audio, and (iii) enabling multi-character audio-driven animation. To address these challenges, we propose HunyuanVideo-Avatar, a multimodal diffusion transformer (MM-DiT)-based model capable of simultaneously generating dynamic, emotion-controllable, and multi-character dialogue videos. Concretely, HunyuanVideo-Avatar introduces three key innovations: (i) A character image injection module is designed to replace the conventional addition-based character conditioning scheme, eliminating the inherent condition mismatch between training and inference. This ensures the dynamic motion and strong character consistency; (ii) An Audio Emotion Module (AEM) is introduced to extract and transfer the emotional cues from an emotion reference image to the target generated video, enabling fine-grained and accurate emotion style control; (iii) A Face-Aware Audio Adapter (FAA) is proposed to isolate the audio-driven character with latent-level face mask, enabling independent audio injection via cross-attention for multi-character scenarios. These innovations empower HunyuanVideo-Avatar to surpass state-of-the-art methods on benchmark datasets and a newly proposed wild dataset, generating realistic avatars in dynamic, immersive scenarios.
- Abstract(参考訳): 近年では、音声による人間のアニメーションが大幅に進歩している。
しかし、重要な課題が残っている。
一 文字の一貫性を保ちながら、高度にダイナミックな映像を生成すること。
(二)文字と音声の正確な感情整合を実現し、
(iii)マルチ文字音声駆動アニメーションの実現。
これらの課題に対処するために,HunyuanVideo-Avatarというマルチモーダル拡散変換器(MM-DiT)ベースのモデルを提案する。
具体的には、HunyuanVideo-Avatarが3つの重要なイノベーションを紹介している。
一 キャラクタ画像注入モジュールは、従来の追加型キャラクタ条件付け方式を代替し、トレーニングと推論の固有の条件ミスマッチをなくすように設計されている。
これにより動的な動きと強いキャラクタ一貫性が保証される。
(II)感情基準画像からターゲット生成ビデオへ感情手がかりを抽出し、伝達するために音声感情モジュール(AEM)を導入し、きめ細かな正確な感情スタイル制御を可能にする。
(iii) マルチキャラクタシナリオに対するクロスアテンションによる独立したオーディオインジェクションを実現するために, 音声駆動型文字を潜在レベルフェイスマスクで分離するために, 顔認識型オーディオアダプタ (FAA) を提案する。
これらのイノベーションにより、HunyuanVideo-Avatarは、ベンチマークデータセットと新しく提案されたワイルドデータセットの最先端メソッドを超越し、ダイナミックで没入的なシナリオで現実的なアバターを生成することができる。
関連論文リスト
- EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。
iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文 参考訳(メタデータ) (2025-03-14T02:54:22Z) - MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。
MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:57:26Z) - Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Video Diffusion Transformer [25.39030226963548]
ポートレートアニメーションのための予め訓練されたトランスフォーマーに基づくビデオ生成モデルの最初の応用について紹介する。
提案手法は,ベンチマーク実験と新たに提案したワイルドデータセットを用いて検証する。
論文 参考訳(メタデータ) (2024-12-01T08:54:30Z) - EmoGene: Audio-Driven Emotional 3D Talking-Head Generation [47.6666060652434]
EmoGeneは、正確な感情表現を備えた高忠実でオーディオ駆動型ビデオポートレートのためのフレームワークである。
本手法では,顔のランドマークを生成するために,可変オートエンコーダ(VAE)ベースのオーディオ・トゥ・モーション・モジュールを用いる。
NeRFベースの感情ビデオモジュールは、リアルな感情的なトーキングヘッドビデオを表示する。
論文 参考訳(メタデータ) (2024-10-07T08:23:05Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。