論文の概要: GMTalker: Gaussian Mixture based Emotional talking video Portraits
- arxiv url: http://arxiv.org/abs/2312.07669v1
- Date: Tue, 12 Dec 2023 19:03:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 17:48:07.969719
- Title: GMTalker: Gaussian Mixture based Emotional talking video Portraits
- Title(参考訳): GMTalker:ガウシアンミキチャーをベースとした感情会話ビデオPortraits
- Authors: Yibo Xia, Lizhen Wang, Xiang Deng, Xiaoyan Luo and Yebin Liu
- Abstract要約: GMTalkerはガウスの混合表現に基づく感情的な話しの肖像画生成フレームワークである。
具体的には、よりフレキシブルな感情操作を実現するために、連続的でマルチモーダルな潜在空間を提案する。
最後に,感情マッピングネットワーク(EMN)を用いた感情誘導型ヘッドジェネレータを提案する。
- 参考スコア(独自算出の注目度): 39.82947742306969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesizing high-fidelity and emotion-controllable talking video portraits,
with audio-lip sync, vivid expression, realistic head pose, and eye blink, is
an important and challenging task in recent years. Most of the existing methods
suffer in achieving personalized precise emotion control or continuously
interpolating between different emotions and generating diverse motion. To
address these problems, we present GMTalker, a Gaussian mixture based emotional
talking portraits generation framework. Specifically, we propose a Gaussian
Mixture based Expression Generator (GMEG) which can construct a continuous and
multi-modal latent space, achieving more flexible emotion manipulation.
Furthermore, we introduce a normalizing flow based motion generator pretrained
on the dataset with a wide-range motion to generate diverse motions. Finally,
we propose a personalized emotion-guided head generator with an Emotion Mapping
Network (EMN) which can synthesize high-fidelity and faithful emotional video
portraits. Both quantitative and qualitative experiments demonstrate our method
outperforms previous methods in image quality, photo-realism, emotion accuracy
and motion diversity.
- Abstract(参考訳): 音声-リップ同期、鮮明な表現、リアルな頭ポーズ、目まきといった高忠実で感情制御可能な音声映像の合成は、近年重要かつ困難な課題となっている。
既存の手法のほとんどは、パーソナライズされた正確な感情制御を達成するか、異なる感情間で継続的に補間し、多様な動きを生み出す。
これらの問題に対処するために,ガウス混合型感情的音声像生成フレームワークであるGMTalkerを提案する。
具体的には,連続的かつマルチモーダルな潜在空間を構築し,より柔軟な感情操作を実現するガウス混合型表現生成器(gmeg)を提案する。
さらに,多様な動きを生成するために,広範囲な動きを持つデータセット上で事前訓練された正規化フローベースモーションジェネレータを導入する。
最後に,感情マッピングネットワーク(emn)を備えた個人化された感情誘導型ヘッドジェネレータを提案する。
定量的・質的実験により,従来の画像品質,フォトリアリズム,感情の正確性,動きの多様性に勝ることを示す。
関連論文リスト
- FlowVQTalker: High-Quality Emotional Talking Face Generation through
Normalizing Flow and Quantization [4.978754943172958]
本稿では,正規化フローとベクトル量子化モデルを用いて感情的な発話顔を生成することを提案する。
具体的には、顔の感情のダイナミクスを多感情階級の潜在空間にエンコードするフローベース係数生成器を開発する。
設計したベクトル量子化画像生成器は、コードクエリータスクとして表現力のある顔画像を作成する。
論文 参考訳(メタデータ) (2024-03-11T01:58:04Z) - EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with
Audio2Video Diffusion Model under Weak Conditions [20.062289952818666]
本稿では,直接音声合成手法を用いた新しいフレームワーク EMO を提案する。
本手法は,映像全体を通してシームレスなフレーム遷移と一貫したアイデンティティ保存を保証し,高い表現力とライフスタイルのアニメーションを実現する。
論文 参考訳(メタデータ) (2024-02-27T13:10:11Z) - EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face
Generation [34.5592743467339]
微粒な顔のアニメーションを生成する視覚属性誘導型オーディオデカップラを提案する。
より正確な感情表現を実現するために,よりきめ細かな感情係数予測モジュールを導入する。
提案手法であるEmoSpeakerは,表情の変動や唇の同期の点で,既存の感情音声生成法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-02T14:04:18Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - Emotional Listener Portrait: Realistic Listener Motion Simulation in
Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。
このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。
本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。
ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文 参考訳(メタデータ) (2023-09-29T18:18:32Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - High-fidelity Generalized Emotional Talking Face Generation with
Multi-modal Emotion Space Learning [43.09015109281053]
よりフレキシブルで汎用的な顔生成フレームワークを提案する。
具体的には、テキストプロンプトで感情スタイルを補完し、テキスト、画像、音声の感情のモダリティを統一された空間に埋め込むためにアラインド・マルチモーダル・感情エンコーダを使用する。
感情条件と音声シーケンスを構造表現に接続する感情認識型オーディオ-to-3DMM変換器を提案する。
論文 参考訳(メタデータ) (2023-05-04T05:59:34Z) - EAMM: One-Shot Emotional Talking Face via Audio-Based Emotion-Aware
Motion Model [32.19539143308341]
本研究では,感情認識運動モデル(EAMM)を提案する。
両モジュールの結果を組み込むことで,任意の被験者に対して良好な話し声を生成できる。
論文 参考訳(メタデータ) (2022-05-30T17:39:45Z) - Audio-Driven Emotional Video Portraits [79.95687903497354]
Emotional Video Portraits(EVP)は、オーディオによって駆動される鮮やかな感情的なダイナミクスで高品質のビデオポートレートを合成するシステムです。
具体的には,音声を2つの分離空間に分解するクロスリコンストラクテッド感情不等角化手法を提案する。
ゆがんだ特徴によって、動的2D感情的な顔のランドマークは推定することができます。
次に,最終的な高品質映像画像を生成するために,ターゲット適応型顔合成手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T13:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。