論文の概要: MoEE: Mixture of Emotion Experts for Audio-Driven Portrait Animation
- arxiv url: http://arxiv.org/abs/2501.01808v1
- Date: Fri, 03 Jan 2025 13:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:11:30.998479
- Title: MoEE: Mixture of Emotion Experts for Audio-Driven Portrait Animation
- Title(参考訳): MoEE: オーディオ駆動のポートレートアニメーションのための感情専門家の混在
- Authors: Huaize Liu, Wenzhang Sun, Donglin Di, Shibo Sun, Jiahui Yang, Changqing Zou, Hujun Bao,
- Abstract要約: 音声アバターの生成は、正確な音声同期において大きな進歩を遂げた。
現在の手法は、単一の基本的な感情表現をモデル化するフレームワークの欠如など、基本的な課題に直面している。
本研究では,6つの基本的な感情を分離し,特異な感情状態と複合的な感情状態の両方を正確に合成する混合感情エキスパートモデルを提案する。
DH-FaceEmoVid-150データセットと組み合わせて、複雑な感情表現とニュアンスのある顔の詳細を生成するのにMoEEフレームワークが優れていることを示す。
- 参考スコア(独自算出の注目度): 39.30784838378127
- License:
- Abstract: The generation of talking avatars has achieved significant advancements in precise audio synchronization. However, crafting lifelike talking head videos requires capturing a broad spectrum of emotions and subtle facial expressions. Current methods face fundamental challenges: a)the absence of frameworks for modeling single basic emotional expressions, which restricts the generation of complex emotions such as compound emotions; b)the lack of comprehensive datasets rich in human emotional expressions, which limits the potential of models. To address these challenges, we propose the following innovations: 1)the Mixture of Emotion Experts (MoEE) model, which decouples six fundamental emotions to enable the precise synthesis of both singular and compound emotional states; 2)the DH-FaceEmoVid-150 dataset, specifically curated to include six prevalent human emotional expressions as well as four types of compound emotions, thereby expanding the training potential of emotion-driven models. Furthermore, to enhance the flexibility of emotion control, we propose an emotion-to-latents module that leverages multimodal inputs, aligning diverse control signals-such as audio, text, and labels-to ensure more varied control inputs as well as the ability to control emotions using audio alone. Through extensive quantitative and qualitative evaluations, we demonstrate that the MoEE framework, in conjunction with the DH-FaceEmoVid-150 dataset, excels in generating complex emotional expressions and nuanced facial details, setting a new benchmark in the field. These datasets will be publicly released.
- Abstract(参考訳): 音声アバターの生成は、正確な音声同期において大きな進歩を遂げた。
しかし、ライフスタイルの会話ヘッドビデオを作るには、広い範囲の感情と微妙な表情をキャプチャする必要がある。
現在の手法は基本的な課題に直面している。
イ 複合感情のような複雑な感情の発生を制限する単一の基本的な感情表現をモデル化するための枠組みがないこと。
b) 人間の感情表現に富む包括的データセットの欠如は、モデルの可能性を制限する。
これらの課題に対処するため,1)6つの基本的な感情を分離して特異な感情状態と複合的な感情状態の両方を正確に合成するMixture of Emotion Experts (MoEE)モデル,2)DH-FaceEmoVid-150データセット,特に6つの一般的な人間の感情表現と4種類の複合感情を含むようにキュレートされたDH-FaceEmoVid-150データセットを提案する。
さらに、感情制御の柔軟性を高めるために、マルチモーダル入力を活用し、音声、テキスト、ラベルなどの多様な制御信号を整列させ、より多様な制御入力を保証し、音声単独で感情を制御できる感情間モジュールを提案する。
DH-FaceEmoVid-150データセットと組み合わせて、複雑な感情表現とニュアンスのある表情の詳細を抽出し、フィールドに新しいベンチマークを設定できることを実証した。
これらのデータセットは公開されます。
関連論文リスト
- Omni-Emotion: Extending Video MLLM with Detailed Face and Audio Modeling for Multimodal Emotion Analysis [6.387263468033964]
自己レビューデータセットと人間レビューデータセットを導入し,24,137個の粗粒度サンプルと3,500個の手作業で詳細な感情アノテーションを付加したアノテートサンプルを作成した。
音声モデリングに加えて,既存の高度なビデオMLLMに顔符号化モデルを明示的に統合することを提案する。
我々のOmni-Emotionは、感情認識と推論の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-16T12:27:05Z) - EmoSphere++: Emotion-Controllable Zero-Shot Text-to-Speech via Emotion-Adaptive Spherical Vector [26.656512860918262]
EmoSphere++は感情制御可能なゼロショットTSモデルで、感情のスタイルや強度をコントロールでき、自然な人間の音声に似ています。
人間のアノテーションを使わずに感情のスタイルや強度をモデル化する,感情適応型球面ベクトルを新たに導入する。
条件付きフローマッチングに基づくデコーダを用いて,数ステップのサンプリングで高品質で表現力のある感情的TSを実現する。
論文 参考訳(メタデータ) (2024-11-04T21:33:56Z) - EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。
感情のカテゴリや強度のきめ細かい制御を可能にする。
他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-11T13:23:22Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Language Models (Mostly) Do Not Consider Emotion Triggers When Predicting Emotion [87.18073195745914]
人間の感情が感情の予測において有意であると考えられる特徴とどのように相関するかを検討する。
EmoTriggerを用いて、感情のトリガーを識別する大規模言語モデルの能力を評価する。
分析の結果、感情のトリガーは感情予測モデルにとって健全な特徴ではなく、様々な特徴と感情検出のタスクの間に複雑な相互作用があることが判明した。
論文 参考訳(メタデータ) (2023-11-16T06:20:13Z) - EAMM: One-Shot Emotional Talking Face via Audio-Based Emotion-Aware
Motion Model [32.19539143308341]
本研究では,感情認識運動モデル(EAMM)を提案する。
両モジュールの結果を組み込むことで,任意の被験者に対して良好な話し声を生成できる。
論文 参考訳(メタデータ) (2022-05-30T17:39:45Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z) - Infusing Multi-Source Knowledge with Heterogeneous Graph Neural Network
for Emotional Conversation Generation [25.808037796936766]
実世界の会話では,マルチソース情報から感情を直感的に知覚する。
感情的会話生成のための異種グラフモデルを提案する。
実験結果は,本モデルがマルチソース知識から感情を効果的に知覚できることを示した。
論文 参考訳(メタデータ) (2020-12-09T06:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。