論文の概要: Audio-Driven Emotional Video Portraits
- arxiv url: http://arxiv.org/abs/2104.07452v1
- Date: Thu, 15 Apr 2021 13:37:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 14:55:02.743701
- Title: Audio-Driven Emotional Video Portraits
- Title(参考訳): オーディオ駆動型感情ビデオポートレイト
- Authors: Xinya Ji, Hang Zhou, Kaisiyuan Wang, Wayne Wu, Chen Change Loy, Xun
Cao, Feng Xu
- Abstract要約: Emotional Video Portraits(EVP)は、オーディオによって駆動される鮮やかな感情的なダイナミクスで高品質のビデオポートレートを合成するシステムです。
具体的には,音声を2つの分離空間に分解するクロスリコンストラクテッド感情不等角化手法を提案する。
ゆがんだ特徴によって、動的2D感情的な顔のランドマークは推定することができます。
次に,最終的な高品質映像画像を生成するために,ターゲット適応型顔合成手法を提案する。
- 参考スコア(独自算出の注目度): 79.95687903497354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite previous success in generating audio-driven talking heads, most of
the previous studies focus on the correlation between speech content and the
mouth shape. Facial emotion, which is one of the most important features on
natural human faces, is always neglected in their methods. In this work, we
present Emotional Video Portraits (EVP), a system for synthesizing high-quality
video portraits with vivid emotional dynamics driven by audios. Specifically,
we propose the Cross-Reconstructed Emotion Disentanglement technique to
decompose speech into two decoupled spaces, i.e., a duration-independent
emotion space and a duration dependent content space. With the disentangled
features, dynamic 2D emotional facial landmarks can be deduced. Then we propose
the Target-Adaptive Face Synthesis technique to generate the final high-quality
video portraits, by bridging the gap between the deduced landmarks and the
natural head poses of target videos. Extensive experiments demonstrate the
effectiveness of our method both qualitatively and quantitatively.
- Abstract(参考訳): 従来の音声駆動音声ヘッド生成の成功にもかかわらず,従来の研究のほとんどは,音声内容と口形状の相関に着目している。
自然な人間の顔で最も重要な特徴の1つである顔の感情は、常に彼らの方法で無視される。
本研究では,高品質な映像ポートレートをオーディオによって駆動される感情的ダイナミックスによって合成するシステムであるEmotional Video Portraits(EVP)を紹介する。
具体的には,音声を2つの分離空間,すなわち持続時間非依存感情空間と継続時間依存コンテンツ空間に分解する,クロス再構成された感情不等角化手法を提案する。
歪んだ特徴により、ダイナミックな2次元の感情的な顔のランドマークを推論することができる。
次に, 推定されたランドマークと対象映像の自然な頭部ポーズのギャップを橋渡しすることにより, 最終的な高品質な映像画像を生成するためのターゲット適応型顔合成手法を提案する。
本手法の有効性を定性的かつ定量的に検証した。
関連論文リスト
- EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with
Audio2Video Diffusion Model under Weak Conditions [20.062289952818666]
本稿では,直接音声合成手法を用いた新しいフレームワーク EMO を提案する。
本手法は,映像全体を通してシームレスなフレーム遷移と一貫したアイデンティティ保存を保証し,高い表現力とライフスタイルのアニメーションを実現する。
論文 参考訳(メタデータ) (2024-02-27T13:10:11Z) - DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - GMTalker: Gaussian Mixture based Emotional talking video Portraits [39.82947742306969]
GMTalkerはガウスの混合表現に基づく感情的な話しの肖像画生成フレームワークである。
具体的には、よりフレキシブルな感情操作を実現するために、連続的でマルチモーダルな潜在空間を提案する。
最後に,感情マッピングネットワーク(EMN)を用いた感情誘導型ヘッドジェネレータを提案する。
論文 参考訳(メタデータ) (2023-12-12T19:03:04Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - SPACEx: Speech-driven Portrait Animation with Controllable Expression [31.99644011371433]
本研究では、音声と1つの画像を用いて、リアルな頭部ポーズで表現力のある映像を生成するSPACExを提案する。
顔のランドマークの制御性と、事前訓練された顔生成装置の高品質な合成能力を組み合わせた多段階的なアプローチを用いる。
論文 参考訳(メタデータ) (2022-11-17T18:59:56Z) - Dilated Context Integrated Network with Cross-Modal Consensus for
Temporal Emotion Localization in Videos [128.70585652795637]
TELは、時間的行動の局所化と比較して3つのユニークな課題を提示している。
感情は時間的ダイナミクスが非常に多様である。
微粒な時間的アノテーションは複雑で、労働集約的です。
論文 参考訳(メタデータ) (2022-08-03T10:00:49Z) - EAMM: One-Shot Emotional Talking Face via Audio-Based Emotion-Aware
Motion Model [32.19539143308341]
本研究では,感情認識運動モデル(EAMM)を提案する。
両モジュールの結果を組み込むことで,任意の被験者に対して良好な話し声を生成できる。
論文 参考訳(メタデータ) (2022-05-30T17:39:45Z) - Speech Driven Talking Face Generation from a Single Image and an Emotion
Condition [28.52180268019401]
音声駆動音声合成における視覚的感情表現のレンダリングのための新しい手法を提案する。
本研究では, 音声音声, 単一顔画像, カテゴリー感情ラベルを入力として, エンドツーエンドの音声音声生成システムの設計を行う。
画像品質,視覚的同期,視覚的感情表現を客観的に評価した結果,提案システムは最先端のベースラインシステムよりも優れていた。
論文 参考訳(メタデータ) (2020-08-08T20:46:31Z) - MakeItTalk: Speaker-Aware Talking-Head Animation [49.77977246535329]
本稿では,音声を入力として1つの顔画像から表現力のある音声音声を生成する手法を提案する。
この中間表現に基づいて,本手法は全音声頭部の映像を全動作域で合成することができる。
論文 参考訳(メタデータ) (2020-04-27T17:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。