Fugu-MT 論文翻訳(概要): EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face Generation

論文の概要: EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face Generation

arxiv url: http://arxiv.org/abs/2402.01422v1
Date: Fri, 2 Feb 2024 14:04:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 15:02:19.292006
Title: EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face Generation
Title（参考訳）: emospeaker: きめ細かな感情制御による会話顔生成
Authors: Guanwen Feng, Haoran Cheng, Yunan Li, Zhiyuan Ma, Chaoneng Li, Zhihao Qian, Qiguang Miao, Chi-Man Pun
Abstract要約: 微粒な顔のアニメーションを生成する視覚属性誘導型オーディオデカップラを提案する。より正確な感情表現を実現するために,よりきめ細かな感情係数予測モジュールを導入する。提案手法であるEmoSpeakerは,表情の変動や唇の同期の点で,既存の感情音声生成法よりも優れていた。
参考スコア（独自算出の注目度）: 34.5592743467339
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Implementing fine-grained emotion control is crucial for emotion generation tasks because it enhances the expressive capability of the generative model, allowing it to accurately and comprehensively capture and express various nuanced emotional states, thereby improving the emotional quality and personalization of generated content. Generating fine-grained facial animations that accurately portray emotional expressions using only a portrait and an audio recording presents a challenge. In order to address this challenge, we propose a visual attribute-guided audio decoupler. This enables the obtention of content vectors solely related to the audio content, enhancing the stability of subsequent lip movement coefficient predictions. To achieve more precise emotional expression, we introduce a fine-grained emotion coefficient prediction module. Additionally, we propose an emotion intensity control method using a fine-grained emotion matrix. Through these, effective control over emotional expression in the generated videos and finer classification of emotion intensity are accomplished. Subsequently, a series of 3DMM coefficient generation networks are designed to predict 3D coefficients, followed by the utilization of a rendering network to generate the final video. Our experimental results demonstrate that our proposed method, EmoSpeaker, outperforms existing emotional talking face generation methods in terms of expression variation and lip synchronization. Project page: https://peterfanfan.github.io/EmoSpeaker/
Abstract（参考訳）: 生成モデルの表現能力を向上し、様々なニュアンスな感情状態を正確かつ包括的に捉え、表現し、生成したコンテンツの感情品質とパーソナライズを改善するため、感情生成タスクにきめ細かい感情制御を実装することが不可欠である。ポートレートとオーディオ録音だけで感情表現を正確に表現するきめ細かい顔アニメーションを作成することが課題となる。この課題に対処するため,視覚的属性誘導型オーディオデカップラを提案する。これにより、音声コンテンツのみに関連するコンテンツベクトルの拘束が可能となり、その後の唇運動係数予測の安定性が向上する。より正確な感情表現を実現するために,細粒度感情係数予測モジュールを導入する。さらに,微粒な感情行列を用いた感情強度制御手法を提案する。これにより、生成したビデオにおける感情表現の効果的な制御と感情強度の詳細な分類が達成される。その後、一連の3DMM係数生成ネットワークが3D係数を予測するように設計され、続いてレンダリングネットワークを用いて最終映像を生成する。実験の結果,提案手法であるEmoSpeakerは,表情の変動や唇の同期の点で,既存の感情音声生成法よりも優れていた。プロジェクトページ: https://peterfan.github.io/EmoSpeaker/

関連論文リスト

MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding [48.54455964043634]
MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。生成した結果は、産業生産パイプラインに便利に統合できます。
論文参考訳（メタデータ） (2025-07-08T15:14:27Z)
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文参考訳（メタデータ） (2025-04-25T05:28:21Z)
EmoHead: Emotional Talking Head via Manipulating Semantic Expression Parameters [35.98628983591868]
提案するEmoHeadは,音声ヘッドビデオのセマンティックな表現パラメータを用いて合成する。本研究は,様々な感情に対する音声入力からの相関性を高めることを目的としている。我々は、訓練済みの超平面を利用して、垂直方向に沿って探索することで顔の動きを洗練する。
論文参考訳（メタデータ） (2025-03-25T07:51:33Z)
EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。 iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文参考訳（メタデータ） (2025-03-14T02:54:22Z)
Audio-Driven Emotional 3D Talking-Head Generation [47.6666060652434]
本稿では,高精度な感情表現による高忠実・音声駆動型映像像の合成システムを提案する。本研究では,無声音声入力に応答して自然なアイドル状態(非話者)ビデオを生成するポーズサンプリング手法を提案する。
論文参考訳（メタデータ） (2024-10-07T08:23:05Z)
EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。感情のカテゴリや強度のきめ細かい制御を可能にする。他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-09-11T13:23:22Z)
DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文参考訳（メタデータ） (2024-08-12T08:56:49Z)
EmoFace: Audio-driven Emotional 3D Face Animation [3.573880705052592]
EmoFaceは、鮮やかな感情的ダイナミクスを備えた顔アニメーションを作成するための、新しいオーディオ駆動の方法論である。提案手法では,複数の感情で表情を生成でき,ランダムだが自然な点滅や眼球運動を生成できる。提案手法は、ビデオゲームでプレイ不可能なキャラクターの対話アニメーションを作成し、バーチャルリアリティ環境でアバターを駆動するのに有効である。
論文参考訳（メタデータ） (2024-07-17T11:32:16Z)
DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文参考訳（メタデータ） (2023-12-21T05:03:18Z)
Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文参考訳（メタデータ） (2023-12-19T08:47:50Z)
GMTalker: Gaussian Mixture-based Audio-Driven Emotional Talking Video Portraits [60.05683966405544]
GMTalkerはガウスの混合合成による感情的な音声画像生成フレームワークである。具体的には,よりフレキシブルな感情操作を実現するために,連続的かつ不整合な潜在空間を提案する。また,多種多様な頭部ポーズ,瞬き,眼球運動を生成するために,大規模データセット上で事前訓練された正規化フローベースモーションジェネレータを導入する。
論文参考訳（メタデータ） (2023-12-12T19:03:04Z)
Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。 EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文参考訳（メタデータ） (2023-06-15T09:31:31Z)
Emotionally Enhanced Talking Face Generation [52.07451348895041]
我々は、適切な表現でビデオを生成するために、カテゴリー的感情に基づく話し顔生成フレームワークを構築した。モデルが任意のアイデンティティ、感情、言語に適応できることを示します。提案するフレームワークはユーザフレンドリーなWebインターフェースを備えており,感情を伴う顔生成をリアルタイムに行うことができる。
論文参考訳（メタデータ） (2023-03-21T02:33:27Z)
EmoTalk: Speech-Driven Emotional Disentanglement for 3D Face Animation [28.964917860664492]
音声駆動型3D顔アニメーションは、音声の内容と感情にマッチする現実的な表情を生成することを目的としている。本稿では,3次元表情を豊かに表現するために,音声のさまざまな感情をアンタングルするエンド・ツー・エンドニューラルネットワークを提案する。我々のアプローチは最先端の手法より優れ、より多様な顔の動きを示す。
論文参考訳（メタデータ） (2023-03-20T13:22:04Z)
Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。本稿では,感情の強さを明示的に表現し,制御することを目的とする。本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文参考訳（メタデータ） (2022-01-10T02:11:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。