論文の概要: GMTalker: Gaussian Mixture based Emotional talking video Portraits
- arxiv url: http://arxiv.org/abs/2312.07669v1
- Date: Tue, 12 Dec 2023 19:03:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 17:48:07.969719
- Title: GMTalker: Gaussian Mixture based Emotional talking video Portraits
- Title(参考訳): GMTalker:ガウシアンミキチャーをベースとした感情会話ビデオPortraits
- Authors: Yibo Xia, Lizhen Wang, Xiang Deng, Xiaoyan Luo and Yebin Liu
- Abstract要約: GMTalkerはガウスの混合表現に基づく感情的な話しの肖像画生成フレームワークである。
具体的には、よりフレキシブルな感情操作を実現するために、連続的でマルチモーダルな潜在空間を提案する。
最後に,感情マッピングネットワーク(EMN)を用いた感情誘導型ヘッドジェネレータを提案する。
- 参考スコア(独自算出の注目度): 39.82947742306969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesizing high-fidelity and emotion-controllable talking video portraits,
with audio-lip sync, vivid expression, realistic head pose, and eye blink, is
an important and challenging task in recent years. Most of the existing methods
suffer in achieving personalized precise emotion control or continuously
interpolating between different emotions and generating diverse motion. To
address these problems, we present GMTalker, a Gaussian mixture based emotional
talking portraits generation framework. Specifically, we propose a Gaussian
Mixture based Expression Generator (GMEG) which can construct a continuous and
multi-modal latent space, achieving more flexible emotion manipulation.
Furthermore, we introduce a normalizing flow based motion generator pretrained
on the dataset with a wide-range motion to generate diverse motions. Finally,
we propose a personalized emotion-guided head generator with an Emotion Mapping
Network (EMN) which can synthesize high-fidelity and faithful emotional video
portraits. Both quantitative and qualitative experiments demonstrate our method
outperforms previous methods in image quality, photo-realism, emotion accuracy
and motion diversity.
- Abstract(参考訳): 音声-リップ同期、鮮明な表現、リアルな頭ポーズ、目まきといった高忠実で感情制御可能な音声映像の合成は、近年重要かつ困難な課題となっている。
既存の手法のほとんどは、パーソナライズされた正確な感情制御を達成するか、異なる感情間で継続的に補間し、多様な動きを生み出す。
これらの問題に対処するために,ガウス混合型感情的音声像生成フレームワークであるGMTalkerを提案する。
具体的には,連続的かつマルチモーダルな潜在空間を構築し,より柔軟な感情操作を実現するガウス混合型表現生成器(gmeg)を提案する。
さらに,多様な動きを生成するために,広範囲な動きを持つデータセット上で事前訓練された正規化フローベースモーションジェネレータを導入する。
最後に,感情マッピングネットワーク(emn)を備えた個人化された感情誘導型ヘッドジェネレータを提案する。
定量的・質的実験により,従来の画像品質,フォトリアリズム,感情の正確性,動きの多様性に勝ることを示す。
関連論文リスト
- Audio-Driven Emotional 3D Talking-Head Generation [47.6666060652434]
本稿では,高精度な感情表現による高忠実・音声駆動型映像像の合成システムを提案する。
本研究では,無声音声入力に応答して自然なアイドル状態(非話者)ビデオを生成するポーズサンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-07T08:23:05Z) - EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。
感情のカテゴリや強度のきめ細かい制御を可能にする。
他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-11T13:23:22Z) - Towards Localized Fine-Grained Control for Facial Expression Generation [54.82883891478555]
人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。
現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。
顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。
論文 参考訳(メタデータ) (2024-07-25T18:29:48Z) - FlowVQTalker: High-Quality Emotional Talking Face Generation through Normalizing Flow and Quantization [4.429892245774265]
本稿では,正規化フローとベクトル量子化モデルを用いて感情的な発話顔を生成することを提案する。
具体的には、顔の感情のダイナミクスを多感情階級の潜在空間にエンコードするフローベース係数生成器を開発する。
設計したベクトル量子化画像生成器は、コードクエリータスクとして表現力のある顔画像を作成する。
論文 参考訳(メタデータ) (2024-03-11T01:58:04Z) - EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face
Generation [34.5592743467339]
微粒な顔のアニメーションを生成する視覚属性誘導型オーディオデカップラを提案する。
より正確な感情表現を実現するために,よりきめ細かな感情係数予測モジュールを導入する。
提案手法であるEmoSpeakerは,表情の変動や唇の同期の点で,既存の感情音声生成法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-02T14:04:18Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - Audio-Driven Emotional Video Portraits [79.95687903497354]
Emotional Video Portraits(EVP)は、オーディオによって駆動される鮮やかな感情的なダイナミクスで高品質のビデオポートレートを合成するシステムです。
具体的には,音声を2つの分離空間に分解するクロスリコンストラクテッド感情不等角化手法を提案する。
ゆがんだ特徴によって、動的2D感情的な顔のランドマークは推定することができます。
次に,最終的な高品質映像画像を生成するために,ターゲット適応型顔合成手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T13:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。