論文の概要: EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion
- arxiv url: http://arxiv.org/abs/2409.07255v1
- Date: Wed, 11 Sep 2024 13:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 14:35:46.026957
- Title: EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion
- Title(参考訳): EMOdiffhead:拡散による発話頭部生成における連続的感情制御
- Authors: Jian Zhang, Weijian Mai, Zhijun Zhang,
- Abstract要約: EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。
感情のカテゴリや強度のきめ細かい制御を可能にする。
他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 5.954758598327494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of audio-driven portrait animation involves generating a talking head video using an identity image and an audio track of speech. While many existing approaches focus on lip synchronization and video quality, few tackle the challenge of generating emotion-driven talking head videos. The ability to control and edit emotions is essential for producing expressive and realistic animations. In response to this challenge, we propose EMOdiffhead, a novel method for emotional talking head video generation that not only enables fine-grained control of emotion categories and intensities but also enables one-shot generation. Given the FLAME 3D model's linearity in expression modeling, we utilize the DECA method to extract expression vectors, that are combined with audio to guide a diffusion model in generating videos with precise lip synchronization and rich emotional expressiveness. This approach not only enables the learning of rich facial information from emotion-irrelevant data but also facilitates the generation of emotional videos. It effectively overcomes the limitations of emotional data, such as the lack of diversity in facial and background information, and addresses the absence of emotional details in emotion-irrelevant data. Extensive experiments and user studies demonstrate that our approach achieves state-of-the-art performance compared to other emotion portrait animation methods.
- Abstract(参考訳): 音声駆動のポートレートアニメーションの課題は、アイデンティティ画像と音声トラックを用いた音声ヘッドビデオを生成することである。
既存の多くのアプローチは、唇の同期とビデオの品質に重点を置いているが、感情駆動型トーキングヘッドビデオを生成するという課題に取り組むものはほとんどない。
感情をコントロールし、編集する能力は、表現的でリアルなアニメーションを作るのに不可欠である。
この課題に対応するために,感情のカテゴリや強度のきめ細かい制御を可能にするだけでなく,ワンショット生成も可能とする感情的頭部映像生成の新しい手法であるEMOdiffheadを提案する。
FLAME 3Dモデルの表現モデルにおける線形性を考えると、DEC法を用いて表現ベクトルを抽出し、音声と組み合わせることで、正確な唇同期とリッチな感情表現性を持つビデオを生成する拡散モデルを導出する。
このアプローチは、感情に無関係なデータから豊富な顔情報を学ぶだけでなく、感情的なビデオの生成を促進する。
これは、顔や背景情報の多様性の欠如のような感情データの限界を効果的に克服し、感情に関係のないデータにおける感情の詳細の欠如に対処する。
広汎な実験とユーザスタディにより,本手法が他の感情像アニメーション法と比較して最先端のパフォーマンスを実現することを示す。
関連論文リスト
- EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion [49.55774551366049]
拡散モデルは、会話のヘッドジェネレーションの分野に革命をもたらしたが、長期的には表現性、制御可能性、安定性に課題に直面している。
これらの問題に対処するためのEmotiveTalkフレームワークを提案する。
実験結果から,EmotiveTalkは表現力のある対話型ヘッドビデオを生成することができ,長時間発生時の感情の制御性と安定性を保証できることがわかった。
論文 参考訳(メタデータ) (2024-11-23T04:38:51Z) - Audio-Driven Emotional 3D Talking-Head Generation [47.6666060652434]
本稿では,高精度な感情表現による高忠実・音声駆動型映像像の合成システムを提案する。
本研究では,無声音声入力に応答して自然なアイドル状態(非話者)ビデオを生成するポーズサンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-07T08:23:05Z) - EmoFace: Audio-driven Emotional 3D Face Animation [3.573880705052592]
EmoFaceは、鮮やかな感情的ダイナミクスを備えた顔アニメーションを作成するための、新しいオーディオ駆動の方法論である。
提案手法では,複数の感情で表情を生成でき,ランダムだが自然な点滅や眼球運動を生成できる。
提案手法は、ビデオゲームでプレイ不可能なキャラクターの対話アニメーションを作成し、バーチャルリアリティ環境でアバターを駆動するのに有効である。
論文 参考訳(メタデータ) (2024-07-17T11:32:16Z) - CSTalk: Correlation Supervised Speech-driven 3D Emotional Facial Animation Generation [13.27632316528572]
音声駆動の3D顔アニメーション技術は長年開発されてきたが、実用的応用には期待できない。
主な課題は、データ制限、唇のアライメント、表情の自然さである。
本稿では,顔の動きの異なる領域間の相関をモデル化し,生成モデルの訓練を監督し,現実的な表現を生成するCSTalkという手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T11:19:15Z) - EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions [18.364859748601887]
本稿では,直接音声合成手法を用いた新しいフレームワーク EMO を提案する。
本手法は,映像全体を通してシームレスなフレーム遷移と一貫したアイデンティティ保存を保証し,高い表現力とライフスタイルのアニメーションを実現する。
論文 参考訳(メタデータ) (2024-02-27T13:10:11Z) - EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face
Generation [34.5592743467339]
微粒な顔のアニメーションを生成する視覚属性誘導型オーディオデカップラを提案する。
より正確な感情表現を実現するために,よりきめ細かな感情係数予測モジュールを導入する。
提案手法であるEmoSpeakerは,表情の変動や唇の同期の点で,既存の感情音声生成法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-02T14:04:18Z) - DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - Audio-Driven Emotional Video Portraits [79.95687903497354]
Emotional Video Portraits(EVP)は、オーディオによって駆動される鮮やかな感情的なダイナミクスで高品質のビデオポートレートを合成するシステムです。
具体的には,音声を2つの分離空間に分解するクロスリコンストラクテッド感情不等角化手法を提案する。
ゆがんだ特徴によって、動的2D感情的な顔のランドマークは推定することができます。
次に,最終的な高品質映像画像を生成するために,ターゲット適応型顔合成手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T13:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。