Fugu-MT 論文翻訳(概要): High-fidelity Generalized Emotional Talking Face Generation with Multi-modal Emotion Space Learning

論文の概要: High-fidelity Generalized Emotional Talking Face Generation with Multi-modal Emotion Space Learning

arxiv url: http://arxiv.org/abs/2305.02572v2
Date: Wed, 31 May 2023 03:41:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-02 02:30:35.042848
Title: High-fidelity Generalized Emotional Talking Face Generation with Multi-modal Emotion Space Learning
Title（参考訳）: マルチモーダル感情空間学習による高忠実度一般化感情対話顔生成
Authors: Chao Xu, Junwei Zhu, Jiangning Zhang, Yue Han, Wenqing Chu, Ying Tai, Chengjie Wang, Zhifeng Xie, Yong Liu
Abstract要約: よりフレキシブルで汎用的な顔生成フレームワークを提案する。具体的には、テキストプロンプトで感情スタイルを補完し、テキスト、画像、音声の感情のモダリティを統一された空間に埋め込むためにアラインド・マルチモーダル・感情エンコーダを使用する。感情条件と音声シーケンスを構造表現に接続する感情認識型オーディオ-to-3DMM変換器を提案する。
参考スコア（独自算出の注目度）: 43.09015109281053
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, emotional talking face generation has received considerable attention. However, existing methods only adopt one-hot coding, image, or audio as emotion conditions, thus lacking flexible control in practical applications and failing to handle unseen emotion styles due to limited semantics. They either ignore the one-shot setting or the quality of generated faces. In this paper, we propose a more flexible and generalized framework. Specifically, we supplement the emotion style in text prompts and use an Aligned Multi-modal Emotion encoder to embed the text, image, and audio emotion modality into a unified space, which inherits rich semantic prior from CLIP. Consequently, effective multi-modal emotion space learning helps our method support arbitrary emotion modality during testing and could generalize to unseen emotion styles. Besides, an Emotion-aware Audio-to-3DMM Convertor is proposed to connect the emotion condition and the audio sequence to structural representation. A followed style-based High-fidelity Emotional Face generator is designed to generate arbitrary high-resolution realistic identities. Our texture generator hierarchically learns flow fields and animated faces in a residual manner. Extensive experiments demonstrate the flexibility and generalization of our method in emotion control and the effectiveness of high-quality face synthesis.
Abstract（参考訳）: 近年,感情的な対面生成が注目されている。しかし、既存の手法では、感情条件としてワンホットコーディング、イメージ、音声のみを採用しており、実用的なアプリケーションでは柔軟な制御ができず、セマンティクスに制限があるため、目に見えない感情スタイルを処理できない。ワンショット設定や生成された顔の品質を無視する。本稿では,より柔軟で汎用的なフレームワークを提案する。具体的には、テキストプロンプトで感情のスタイルを補足し、CLIPに先立ってリッチなセマンティクスを継承するテキスト、画像、音声の感情のモダリティを統一された空間に埋め込むためにアラインド・マルチモーダル・感情エンコーダを使用する。その結果、効果的なマルチモーダル感情空間学習は、テスト中に任意の感情モダリティをサポートし、知覚できない感情スタイルに一般化することができる。さらに,感情条件と音声シーケンスを構造表現に結びつけるために,感情認識型3DMM変換器を提案する。追従型高忠実感情顔生成器は、任意の高精細な現実的アイデンティティを生成するように設計されている。我々のテクスチャジェネレータは階層的に流れ場とアニメーションの顔を残留的に学習する。広範な実験により,感情制御における手法の柔軟性と一般化,高品質顔合成の有効性が実証された。

関連論文リスト

Think-Before-Draw: Decomposing Emotion Semantics & Fine-Grained Controllable Expressive Talking Head Generation [7.362433184546492]
コンピュータビジョンとマルチモーダル人工知能の交差点における重要な研究領域として、感情的トーキー生成が出現している。本研究では,2つの課題に対処するThink-Before-Drawフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-17T03:33:46Z)
MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding [48.54455964043634]
MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。生成した結果は、産業生産パイプラインに便利に統合できます。
論文参考訳（メタデータ） (2025-07-08T15:14:27Z)
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文参考訳（メタデータ） (2025-04-25T05:28:21Z)
Emotional Face-to-Speech [13.725558939494407]
既存の音声合成手法は、アイデンティティの特徴を捉える上で大きな可能性を秘めているが、感情表現を伴う多様な声のスタイルを生成するのに苦労している。 DemoFaceは、離散拡散変換器(DiT)とカリキュラム学習を利用する新しい生成フレームワークである。本研究では,多様な条件付きシナリオに対処し,多条件生成と複雑な属性の解離を効果的に行うための予測自由誘導法を開発した。
論文参考訳（メタデータ） (2025-02-03T04:48:50Z)
MoEE: Mixture of Emotion Experts for Audio-Driven Portrait Animation [39.30784838378127]
音声アバターの生成は、正確な音声同期において大きな進歩を遂げた。現在の手法は、単一の基本的な感情表現をモデル化するフレームワークの欠如など、基本的な課題に直面している。本研究では,6つの基本的な感情を分離し,特異な感情状態と複合的な感情状態の両方を正確に合成する混合感情エキスパートモデルを提案する。 DH-FaceEmoVid-150データセットと組み合わせて、複雑な感情表現とニュアンスのある顔の詳細を生成するのにMoEEフレームワークが優れていることを示す。
論文参考訳（メタデータ） (2025-01-03T13:43:21Z)
EmoSphere++: Emotion-Controllable Zero-Shot Text-to-Speech via Emotion-Adaptive Spherical Vector [26.656512860918262]
EmoSphere++は感情制御可能なゼロショットTSモデルで、感情のスタイルや強度をコントロールでき、自然な人間の音声に似ています。人間のアノテーションを使わずに感情のスタイルや強度をモデル化する,感情適応型球面ベクトルを新たに導入する。条件付きフローマッチングに基づくデコーダを用いて,数ステップのサンプリングで高品質で表現力のある感情的TSを実現する。
論文参考訳（メタデータ） (2024-11-04T21:33:56Z)
EmoKnob: Enhance Voice Cloning with Fine-Grained Emotion Control [7.596581158724187]
EmoKnob(エモノブ)は、任意の感情の少数の実証的なサンプルを用いて、音声合成におけるきめ細かい感情制御を可能にするフレームワークである。我々の感情制御フレームワークは、音声に感情を効果的に埋め込んで、商用TTSサービスの感情表現性を超越していることを示す。
論文参考訳（メタデータ） (2024-10-01T01:29:54Z)
EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face Generation [34.5592743467339]
微粒な顔のアニメーションを生成する視覚属性誘導型オーディオデカップラを提案する。より正確な感情表現を実現するために,よりきめ細かな感情係数予測モジュールを導入する。提案手法であるEmoSpeakerは,表情の変動や唇の同期の点で,既存の感情音声生成法よりも優れていた。
論文参考訳（メタデータ） (2024-02-02T14:04:18Z)
EmoTalker: Emotionally Editable Talking Face Generation via Diffusion Model [39.14430238946951]
EmoTalkerは、拡散モデルに基づく感情的に編集可能なポートレートアニメーションアプローチである。感情インテンシティブロックは、プロンプトから派生したきめ細かい感情や強みを分析するために導入された。 EmoTalkerが高品質で感情的にカスタマイズ可能な表情生成に有効であることを示す実験を行った。
論文参考訳（メタデータ） (2024-01-16T02:02:44Z)
Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文参考訳（メタデータ） (2023-12-19T08:47:50Z)
GMTalker: Gaussian Mixture-based Audio-Driven Emotional Talking Video Portraits [60.05683966405544]
GMTalkerはガウスの混合合成による感情的な音声画像生成フレームワークである。具体的には,よりフレキシブルな感情操作を実現するために,連続的かつ不整合な潜在空間を提案する。また,多種多様な頭部ポーズ,瞬き,眼球運動を生成するために,大規模データセット上で事前訓練された正規化フローベースモーションジェネレータを導入する。
論文参考訳（メタデータ） (2023-12-12T19:03:04Z)
Emotionally Enhanced Talking Face Generation [52.07451348895041]
我々は、適切な表現でビデオを生成するために、カテゴリー的感情に基づく話し顔生成フレームワークを構築した。モデルが任意のアイデンティティ、感情、言語に適応できることを示します。提案するフレームワークはユーザフレンドリーなWebインターフェースを備えており,感情を伴う顔生成をリアルタイムに行うことができる。
論文参考訳（メタデータ） (2023-03-21T02:33:27Z)
EAMM: One-Shot Emotional Talking Face via Audio-Based Emotion-Aware Motion Model [32.19539143308341]
本研究では,感情認識運動モデル(EAMM)を提案する。両モジュールの結果を組み込むことで,任意の被験者に対して良好な話し声を生成できる。
論文参考訳（メタデータ） (2022-05-30T17:39:45Z)
Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。本稿では,感情の強さを明示的に表現し,制御することを目的とする。本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文参考訳（メタデータ） (2022-01-10T02:11:25Z)
Emotion Recognition from Multiple Modalities: Fundamentals and Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文参考訳（メタデータ） (2021-08-18T21:55:20Z)
Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文参考訳（メタデータ） (2021-04-20T16:55:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。