Fugu-MT 論文翻訳(概要): Expressive Speech-driven Facial Animation with controllable emotions

論文の概要: Expressive Speech-driven Facial Animation with controllable emotions

arxiv url: http://arxiv.org/abs/2301.02008v1
Date: Thu, 5 Jan 2023 11:17:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-06 14:08:27.643091
Title: Expressive Speech-driven Facial Animation with controllable emotions
Title（参考訳）: 制御可能な感情を伴う表現型音声駆動顔アニメーション
Authors: Yutong Chen, Junhong Zhao, Wei-Qiang Zhang
Abstract要約: 本稿では,音声から表情の表情を生成するための深層学習に基づく新しいアプローチを提案する。広視野の表情を、制御可能な感情タイプと強度で表現することができる。感情制御可能な顔アニメーションを可能にし、ターゲット表現を継続的に調整することができる。
参考スコア（独自算出の注目度）: 9.96515343186231
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: It is in high demand to generate facial animation with high realism, but it remains a challenging task. Existing approaches of speech-driven facial animation can produce satisfactory mouth movement and lip synchronization, but show weakness in dramatic emotional expressions and flexibility in emotion control. This paper presents a novel deep learning-based approach for expressive facial animation generation from speech that can exhibit wide-spectrum facial expressions with controllable emotion type and intensity. We propose an emotion controller module to learn the relationship between the emotion variations (e.g., types and intensity) and the corresponding facial expression parameters. It enables emotion-controllable facial animation, where the target expression can be continuously adjusted as desired. The qualitative and quantitative evaluations show that the animation generated by our method is rich in facial emotional expressiveness while retaining accurate lip movement, outperforming other state-of-the-art methods.
Abstract（参考訳）: 顔のアニメーションを高いリアリズムで生成することは高い需要があるが、それでも難しい課題である。既存の音声駆動顔アニメーションのアプローチは、口の動きと唇の同期を満足させるが、劇的な感情表現の弱さと感情制御の柔軟性を示す。本稿では,感情のタイプと強度を制御可能な広スペクトルの表情を表現できる音声から表情を表現できる,新しい深層学習に基づくアプローチを提案する。感情の変動(タイプや強度など)とそれに対応する表情パラメータの関係を学習するための感情制御モジュールを提案する。感情制御可能な顔アニメーションを可能にし、ターゲット表現を必要に応じて継続的に調整することができる。質的,定量的評価により,本手法で生成したアニメーションは,唇の動きを正確に保ちながら表情の表情に富み,他の手法よりも優れていた。

関連論文リスト

EditEmoTalk: Controllable Speech-Driven 3D Facial Animation with Continuous Expression Editing [24.15552429255594]
音声駆動型3D顔アニメーションは、音声から直接現実的で表現力のある顔の動きを生成することを目的としている。本稿では,連続的な感情編集機能を備えた音声駆動型3D顔アニメーションフレームワークEditEmoTalkを提案する。
論文参考訳（メタデータ） (2026-01-15T02:21:22Z)
EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。 EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-08-28T10:02:06Z)
MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding [48.54455964043634]
MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。生成した結果は、産業生産パイプラインに便利に統合できます。
論文参考訳（メタデータ） (2025-07-08T15:14:27Z)
EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。 iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文参考訳（メタデータ） (2025-03-14T02:54:22Z)
EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。感情のカテゴリや強度のきめ細かい制御を可能にする。他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-09-11T13:23:22Z)
DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文参考訳（メタデータ） (2024-08-12T08:56:49Z)
Towards Localized Fine-Grained Control for Facial Expression Generation [54.82883891478555]
人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。
論文参考訳（メタデータ） (2024-07-25T18:29:48Z)
EmoFace: Audio-driven Emotional 3D Face Animation [3.573880705052592]
EmoFaceは、鮮やかな感情的ダイナミクスを備えた顔アニメーションを作成するための、新しいオーディオ駆動の方法論である。提案手法では,複数の感情で表情を生成でき,ランダムだが自然な点滅や眼球運動を生成できる。提案手法は、ビデオゲームでプレイ不可能なキャラクターの対話アニメーションを作成し、バーチャルリアリティ環境でアバターを駆動するのに有効である。
論文参考訳（メタデータ） (2024-07-17T11:32:16Z)
CSTalk: Correlation Supervised Speech-driven 3D Emotional Facial Animation Generation [13.27632316528572]
音声駆動の3D顔アニメーション技術は長年開発されてきたが、実用的応用には期待できない。主な課題は、データ制限、唇のアライメント、表情の自然さである。本稿では,顔の動きの異なる領域間の相関をモデル化し,生成モデルの訓練を監督し,現実的な表現を生成するCSTalkという手法を提案する。
論文参考訳（メタデータ） (2024-04-29T11:19:15Z)
DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文参考訳（メタデータ） (2023-12-21T05:03:18Z)
GMTalker: Gaussian Mixture-based Audio-Driven Emotional Talking Video Portraits [60.05683966405544]
GMTalkerはガウスの混合合成による感情的な音声画像生成フレームワークである。具体的には,よりフレキシブルな感情操作を実現するために,連続的かつ不整合な潜在空間を提案する。また,多種多様な頭部ポーズ,瞬き,眼球運動を生成するために,大規模データセット上で事前訓練された正規化フローベースモーションジェネレータを導入する。
論文参考訳（メタデータ） (2023-12-12T19:03:04Z)
Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。 EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文参考訳（メタデータ） (2023-06-15T09:31:31Z)
Audio-Driven Talking Face Generation with Diverse yet Realistic Facial Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。 DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文参考訳（メタデータ） (2023-04-18T12:36:15Z)
Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。本稿では,感情の強さを明示的に表現し,制御することを目的とする。本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文参考訳（メタデータ） (2022-01-10T02:11:25Z)
Facial Expression Editing with Continuous Emotion Labels [76.36392210528105]
深層生成モデルは、自動表情編集の分野で素晴らしい成果を上げている。連続した2次元の感情ラベルに従って顔画像の表情を操作できるモデルを提案する。
論文参考訳（メタデータ） (2020-06-22T13:03:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。