Fugu-MT 論文翻訳(概要): DreamTalk: When Emotional Talking Head Generation Meets Diffusion Probabilistic Models

論文の概要: DreamTalk: When Emotional Talking Head Generation Meets Diffusion Probabilistic Models

arxiv url: http://arxiv.org/abs/2312.09767v3
Date: Sat, 10 Aug 2024 09:37:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-14 00:28:29.001566
Title: DreamTalk: When Emotional Talking Head Generation Meets Diffusion Probabilistic Models
Title（参考訳）: DreamTalk: 感情的な会話のヘッドジェネレーションが拡散確率モデルに出会ったとき
Authors: Yifeng Ma, Shiwei Zhang, Jiayu Wang, Xiang Wang, Yingya Zhang, Zhidong Deng,
Abstract要約: 本研究では,感情的な話し声を生成するためのフレームワークであるDreamTalkを提案する。このフレームワークは、認知ネットワーク、スタイル認識のリップエキスパート、スタイル予測器で構成されている。つまりDreamTalkは、さまざまな感情にまたがる鮮やかな会話の表情を一貫して生成し、パーソナライズされた感情を便利に特定できる。
参考スコア（独自算出の注目度）: 25.383382288323943
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Emotional talking head generation has attracted growing attention. Previous methods, which are mainly GAN-based, still struggle to consistently produce satisfactory results across diverse emotions and cannot conveniently specify personalized emotions. In this work, we leverage powerful diffusion models to address the issue and propose DreamTalk, a framework that employs meticulous design to unlock the potential of diffusion models in generating emotional talking heads. Specifically, DreamTalk consists of three crucial components: a denoising network, a style-aware lip expert, and a style predictor. The diffusion-based denoising network can consistently synthesize high-quality audio-driven face motions across diverse emotions. To enhance lip-motion accuracy and emotional fullness, we introduce a style-aware lip expert that can guide lip-sync while preserving emotion intensity. To more conveniently specify personalized emotions, a diffusion-based style predictor is utilized to predict the personalized emotion directly from the audio, eliminating the need for extra emotion reference. By this means, DreamTalk can consistently generate vivid talking faces across diverse emotions and conveniently specify personalized emotions. Extensive experiments validate DreamTalk's effectiveness and superiority. The code is available at https://github.com/ali-vilab/dreamtalk.
Abstract（参考訳）: 感情的なトーキング・ヘッドジェネレーションは注目を集めている。従来は、主にGANをベースとした手法では、多様な感情にまたがる満足な結果を一貫して生み出すのに苦慮しており、パーソナライズされた感情を便利に特定することはできない。本研究では,この課題に対処するために,強力な拡散モデルを活用するとともに,感情的な話し声を発生させる際の拡散モデルの可能性を明らかにするために,巧妙な設計を採用するフレームワークであるDreamTalkを提案する。具体的には、DreamTalkは3つの重要なコンポーネントで構成されている。拡散に基づく認知ネットワークは、様々な感情にまたがる高品質な音声駆動の顔の動きを一貫して合成することができる。唇運動の精度と感情のフルネスを高めるために,感情の強さを保ちながらリップシンクをガイドできるスタイルアウェアな唇専門家を紹介した。パーソナライズされた感情をより便利に特定するために、拡散に基づくスタイル予測器を使用して、パーソナライズされた感情を直接オーディオから予測し、追加の感情参照の必要性をなくす。つまりDreamTalkは、さまざまな感情にまたがる鮮やかな会話の表情を一貫して生成し、パーソナライズされた感情を便利に特定できる。大規模な実験はDreamTalkの有効性と優位性を検証する。コードはhttps://github.com/ali-vilab/dreamtalk.comで公開されている。

関連論文リスト

MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding [48.54455964043634]
MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。生成した結果は、産業生産パイプラインに便利に統合できます。
論文参考訳（メタデータ） (2025-07-08T15:14:27Z)
UDDETTS: Unifying Discrete and Dimensional Emotions for Controllable Emotional Text-to-Speech [61.989360995528905]
制御可能な感情的TTSのための離散的感情と次元的感情を統一する普遍的なフレームワークであるUDDETTSを提案する。このモデルは、次元的感情記述のための解釈可能なArousal-Dominance-Valence(ADV)空間を導入し、離散的な感情ラベルまたは非線形に定量化されたADV値によって駆動される感情制御をサポートする。実験の結果, UDDETTSは3次元の線形感情制御を実現し, エンドツーエンドの感情音声合成能力に優れていた。
論文参考訳（メタデータ） (2025-05-15T12:57:19Z)
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文参考訳（メタデータ） (2025-04-25T05:28:21Z)
EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。 iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文参考訳（メタデータ） (2025-03-14T02:54:22Z)
MoEE: Mixture of Emotion Experts for Audio-Driven Portrait Animation [39.30784838378127]
音声アバターの生成は、正確な音声同期において大きな進歩を遂げた。現在の手法は、単一の基本的な感情表現をモデル化するフレームワークの欠如など、基本的な課題に直面している。本研究では,6つの基本的な感情を分離し,特異な感情状態と複合的な感情状態の両方を正確に合成する混合感情エキスパートモデルを提案する。 DH-FaceEmoVid-150データセットと組み合わせて、複雑な感情表現とニュアンスのある顔の詳細を生成するのにMoEEフレームワークが優れていることを示す。
論文参考訳（メタデータ） (2025-01-03T13:43:21Z)
EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。感情のカテゴリや強度のきめ細かい制御を可能にする。他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-09-11T13:23:22Z)
DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文参考訳（メタデータ） (2024-08-12T08:56:49Z)
EmoFace: Audio-driven Emotional 3D Face Animation [3.573880705052592]
EmoFaceは、鮮やかな感情的ダイナミクスを備えた顔アニメーションを作成するための、新しいオーディオ駆動の方法論である。提案手法では,複数の感情で表情を生成でき,ランダムだが自然な点滅や眼球運動を生成できる。提案手法は、ビデオゲームでプレイ不可能なキャラクターの対話アニメーションを作成し、バーチャルリアリティ環境でアバターを駆動するのに有効である。
論文参考訳（メタデータ） (2024-07-17T11:32:16Z)
EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face Generation [34.5592743467339]
微粒な顔のアニメーションを生成する視覚属性誘導型オーディオデカップラを提案する。より正確な感情表現を実現するために,よりきめ細かな感情係数予測モジュールを導入する。提案手法であるEmoSpeakerは,表情の変動や唇の同期の点で,既存の感情音声生成法よりも優れていた。
論文参考訳（メタデータ） (2024-02-02T14:04:18Z)
DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文参考訳（メタデータ） (2023-12-21T05:03:18Z)
Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文参考訳（メタデータ） (2023-12-19T08:47:50Z)
Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。 EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文参考訳（メタデータ） (2023-06-15T09:31:31Z)
Emotionally Enhanced Talking Face Generation [52.07451348895041]
我々は、適切な表現でビデオを生成するために、カテゴリー的感情に基づく話し顔生成フレームワークを構築した。モデルが任意のアイデンティティ、感情、言語に適応できることを示します。提案するフレームワークはユーザフレンドリーなWebインターフェースを備えており,感情を伴う顔生成をリアルタイムに行うことができる。
論文参考訳（メタデータ） (2023-03-21T02:33:27Z)
Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文参考訳（メタデータ） (2022-08-11T15:45:58Z)
Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。本稿では,感情の強さを明示的に表現し,制御することを目的とする。本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文参考訳（メタデータ） (2022-01-10T02:11:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。