Fugu-MT 論文翻訳(概要): EmoGene: Audio-Driven Emotional 3D Talking-Head Generation

論文の概要: EmoGene: Audio-Driven Emotional 3D Talking-Head Generation

arxiv url: http://arxiv.org/abs/2410.17262v2
Date: Thu, 01 May 2025 21:31:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-05 13:22:23.285563
Title: EmoGene: Audio-Driven Emotional 3D Talking-Head Generation
Title（参考訳）: EmoGene: オーディオ駆動型感情型3Dトーキングヘッドジェネレーション
Authors: Wenqing Wang, Yun Fu,
Abstract要約: EmoGeneは、正確な感情表現を備えた高忠実でオーディオ駆動型ビデオポートレートのためのフレームワークである。本手法では,顔のランドマークを生成するために,可変オートエンコーダ(VAE)ベースのオーディオ・トゥ・モーション・モジュールを用いる。 NeRFベースの感情ビデオモジュールは、リアルな感情的なトーキングヘッドビデオを表示する。
参考スコア（独自算出の注目度）: 47.6666060652434
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Audio-driven talking-head generation is a crucial and useful technology for virtual human interaction and film-making. While recent advances have focused on improving image fidelity and lip synchronization, generating accurate emotional expressions remains underexplored. In this paper, we introduce EmoGene, a novel framework for synthesizing high-fidelity, audio-driven video portraits with accurate emotional expressions. Our approach employs a variational autoencoder (VAE)-based audio-to-motion module to generate facial landmarks, which are concatenated with emotional embedding in a motion-to-emotion module to produce emotional landmarks. These landmarks drive a Neural Radiance Fields (NeRF)-based emotion-to-video module to render realistic emotional talking-head videos. Additionally, we propose a pose sampling method to generate natural idle-state (non-speaking) videos for silent audio inputs. Extensive experiments demonstrate that EmoGene outperforms previous methods in generating high-fidelity emotional talking-head videos.
Abstract（参考訳）: 音声駆動のトーキングヘッド生成は、バーチャルヒューマンインタラクションと映画製作にとって重要かつ有用な技術である。近年の進歩は、画像の忠実さと唇の同期の改善に焦点が当てられているが、正確な感情表現の生成は未解明のままである。本稿では,高忠実・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細な映像像を合成するEmoGeneを紹介する。本手法では, 表情のランドマークを生成するために, 可変オートエンコーダ (VAE) ベースのオーディオ・トゥ・モーション・モジュールを用いて, 感情のランドマークを生成する。これらのランドマークはNeural Radiance Fields(NeRF)ベースの感情対ビデオモジュールを駆動し、リアルな感情的なトーキングヘッドビデオをレンダリングする。また,無声音声入力のための自然なアイドル状態(非話者)ビデオを生成するためのポーズサンプリング手法を提案する。大規模な実験により、EmoGeneは、高忠実な感情的なトーキングヘッドビデオを生成する従来の方法よりも優れていたことが示される。

関連論文リスト

SynchroRaMa : Lip-Synchronized and Emotion-Aware Talking Face Generation via Multi-Modal Emotion Embedding [22.47072342385842]
SynchroRaMaは、テキストと音声の感情信号を組み合わせることで、マルチモーダルな感情埋め込みを統合する新しいフレームワークである。 SynchroRaMaにはオーディオ・トゥ・モーション(A2M)モジュールが含まれており、入力されたオーディオに合わせてモーションフレームを生成する。ベンチマークデータセットの実験では、SynchroRaMaが最先端よりも優れていることが示されている。
論文参考訳（メタデータ） (2025-09-24T10:21:29Z)
EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。 EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-08-28T10:02:06Z)
Taming Transformer for Emotion-Controllable Talking Face Generation [61.835295250047196]
本稿では,感情制御可能な発話顔生成タスクを個別に行うための新しい手法を提案する。具体的には、2つの事前学習戦略を用いて、音声を独立したコンポーネントに分解し、映像を視覚トークンの組み合わせに定量化する。我々は、複数の感情的オーディオで調整された映像の感情を制御するMEADデータセット上で実験を行う。
論文参考訳（メタデータ） (2025-08-20T02:16:52Z)
MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding [48.54455964043634]
MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。生成した結果は、産業生産パイプラインに便利に統合できます。
論文参考訳（メタデータ） (2025-07-08T15:14:27Z)
EmoHead: Emotional Talking Head via Manipulating Semantic Expression Parameters [35.98628983591868]
提案するEmoHeadは,音声ヘッドビデオのセマンティックな表現パラメータを用いて合成する。本研究は,様々な感情に対する音声入力からの相関性を高めることを目的としている。我々は、訓練済みの超平面を利用して、垂直方向に沿って探索することで顔の動きを洗練する。
論文参考訳（メタデータ） (2025-03-25T07:51:33Z)
EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。 iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文参考訳（メタデータ） (2025-03-14T02:54:22Z)
MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。 MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文参考訳（メタデータ） (2024-12-05T18:57:26Z)
EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。感情のカテゴリや強度のきめ細かい制御を可能にする。他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-09-11T13:23:22Z)
EmoFace: Audio-driven Emotional 3D Face Animation [3.573880705052592]
EmoFaceは、鮮やかな感情的ダイナミクスを備えた顔アニメーションを作成するための、新しいオーディオ駆動の方法論である。提案手法では,複数の感情で表情を生成でき,ランダムだが自然な点滅や眼球運動を生成できる。提案手法は、ビデオゲームでプレイ不可能なキャラクターの対話アニメーションを作成し、バーチャルリアリティ環境でアバターを駆動するのに有効である。
論文参考訳（メタデータ） (2024-07-17T11:32:16Z)
EMO: Emote Portrait Alive -- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions [18.364859748601887]
本稿では,直接音声合成手法を用いた新しいフレームワーク EMO を提案する。本手法は,映像全体を通してシームレスなフレーム遷移と一貫したアイデンティティ保存を保証し,高い表現力とライフスタイルのアニメーションを実現する。
論文参考訳（メタデータ） (2024-02-27T13:10:11Z)
EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face Generation [34.5592743467339]
微粒な顔のアニメーションを生成する視覚属性誘導型オーディオデカップラを提案する。より正確な感情表現を実現するために,よりきめ細かな感情係数予測モジュールを導入する。提案手法であるEmoSpeakerは,表情の変動や唇の同期の点で,既存の感情音声生成法よりも優れていた。
論文参考訳（メタデータ） (2024-02-02T14:04:18Z)
DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文参考訳（メタデータ） (2023-12-21T05:03:18Z)
GMTalker: Gaussian Mixture-based Audio-Driven Emotional Talking Video Portraits [60.05683966405544]
GMTalkerはガウスの混合合成による感情的な音声画像生成フレームワークである。具体的には,よりフレキシブルな感情操作を実現するために,連続的かつ不整合な潜在空間を提案する。また,多種多様な頭部ポーズ,瞬き,眼球運動を生成するために,大規模データセット上で事前訓練された正規化フローベースモーションジェネレータを導入する。
論文参考訳（メタデータ） (2023-12-12T19:03:04Z)
Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。 EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文参考訳（メタデータ） (2023-06-15T09:31:31Z)
EAMM: One-Shot Emotional Talking Face via Audio-Based Emotion-Aware Motion Model [32.19539143308341]
本研究では,感情認識運動モデル(EAMM)を提案する。両モジュールの結果を組み込むことで,任意の被験者に対して良好な話し声を生成できる。
論文参考訳（メタデータ） (2022-05-30T17:39:45Z)
Audio-Driven Emotional Video Portraits [79.95687903497354]
Emotional Video Portraits(EVP)は、オーディオによって駆動される鮮やかな感情的なダイナミクスで高品質のビデオポートレートを合成するシステムです。具体的には,音声を2つの分離空間に分解するクロスリコンストラクテッド感情不等角化手法を提案する。ゆがんだ特徴によって、動的2D感情的な顔のランドマークは推定することができます。次に,最終的な高品質映像画像を生成するために,ターゲット適応型顔合成手法を提案する。
論文参考訳（メタデータ） (2021-04-15T13:37:13Z)
Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2020-10-28T07:16:18Z)
An End-to-End Visual-Audio Attention Network for Emotion Recognition in User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文参考訳（メタデータ） (2020-02-12T15:33:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。