Fugu-MT 論文翻訳(概要): GMTalker: Gaussian Mixture based Emotional talking video Portraits

論文の概要: GMTalker: Gaussian Mixture based Emotional talking video Portraits

arxiv url: http://arxiv.org/abs/2312.07669v1
Date: Tue, 12 Dec 2023 19:03:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-14 17:48:07.969719
Title: GMTalker: Gaussian Mixture based Emotional talking video Portraits
Title（参考訳）: GMTalker:ガウシアンミキチャーをベースとした感情会話ビデオPortraits
Authors: Yibo Xia, Lizhen Wang, Xiang Deng, Xiaoyan Luo and Yebin Liu
Abstract要約: GMTalkerはガウスの混合表現に基づく感情的な話しの肖像画生成フレームワークである。具体的には、よりフレキシブルな感情操作を実現するために、連続的でマルチモーダルな潜在空間を提案する。最後に,感情マッピングネットワーク(EMN)を用いた感情誘導型ヘッドジェネレータを提案する。
参考スコア（独自算出の注目度）: 39.82947742306969
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Synthesizing high-fidelity and emotion-controllable talking video portraits, with audio-lip sync, vivid expression, realistic head pose, and eye blink, is an important and challenging task in recent years. Most of the existing methods suffer in achieving personalized precise emotion control or continuously interpolating between different emotions and generating diverse motion. To address these problems, we present GMTalker, a Gaussian mixture based emotional talking portraits generation framework. Specifically, we propose a Gaussian Mixture based Expression Generator (GMEG) which can construct a continuous and multi-modal latent space, achieving more flexible emotion manipulation. Furthermore, we introduce a normalizing flow based motion generator pretrained on the dataset with a wide-range motion to generate diverse motions. Finally, we propose a personalized emotion-guided head generator with an Emotion Mapping Network (EMN) which can synthesize high-fidelity and faithful emotional video portraits. Both quantitative and qualitative experiments demonstrate our method outperforms previous methods in image quality, photo-realism, emotion accuracy and motion diversity.
Abstract（参考訳）: 音声-リップ同期、鮮明な表現、リアルな頭ポーズ、目まきといった高忠実で感情制御可能な音声映像の合成は、近年重要かつ困難な課題となっている。既存の手法のほとんどは、パーソナライズされた正確な感情制御を達成するか、異なる感情間で継続的に補間し、多様な動きを生み出す。これらの問題に対処するために,ガウス混合型感情的音声像生成フレームワークであるGMTalkerを提案する。具体的には,連続的かつマルチモーダルな潜在空間を構築し,より柔軟な感情操作を実現するガウス混合型表現生成器(gmeg)を提案する。さらに,多様な動きを生成するために,広範囲な動きを持つデータセット上で事前訓練された正規化フローベースモーションジェネレータを導入する。最後に,感情マッピングネットワーク(emn)を備えた個人化された感情誘導型ヘッドジェネレータを提案する。定量的・質的実験により,従来の画像品質,フォトリアリズム,感情の正確性,動きの多様性に勝ることを示す。

関連論文リスト

Think-Before-Draw: Decomposing Emotion Semantics & Fine-Grained Controllable Expressive Talking Head Generation [7.362433184546492]
コンピュータビジョンとマルチモーダル人工知能の交差点における重要な研究領域として、感情的トーキー生成が出現している。本研究では,2つの課題に対処するThink-Before-Drawフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-17T03:33:46Z)
MEDTalk: Multimodal Controlled 3D Facial Animation with Dynamic Emotions by Disentangled Embedding [48.54455964043634]
MEDTalkは、きめ細かなダイナミックな会話ヘッド生成のための新しいフレームワークである。音声と音声のテキストを統合し、フレームワイドの強度変化を予測し、静的な感情特徴を動的に調整し、リアルな感情表現を生成する。生成した結果は、産業生産パイプラインに便利に統合できます。
論文参考訳（メタデータ） (2025-07-08T15:14:27Z)
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文参考訳（メタデータ） (2025-04-25T05:28:21Z)
EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。 iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文参考訳（メタデータ） (2025-03-14T02:54:22Z)
MoEE: Mixture of Emotion Experts for Audio-Driven Portrait Animation [39.30784838378127]
音声アバターの生成は、正確な音声同期において大きな進歩を遂げた。現在の手法は、単一の基本的な感情表現をモデル化するフレームワークの欠如など、基本的な課題に直面している。本研究では,6つの基本的な感情を分離し,特異な感情状態と複合的な感情状態の両方を正確に合成する混合感情エキスパートモデルを提案する。 DH-FaceEmoVid-150データセットと組み合わせて、複雑な感情表現とニュアンスのある顔の詳細を生成するのにMoEEフレームワークが優れていることを示す。
論文参考訳（メタデータ） (2025-01-03T13:43:21Z)
Audio-Driven Emotional 3D Talking-Head Generation [47.6666060652434]
本稿では,高精度な感情表現による高忠実・音声駆動型映像像の合成システムを提案する。本研究では,無声音声入力に応答して自然なアイドル状態(非話者)ビデオを生成するポーズサンプリング手法を提案する。
論文参考訳（メタデータ） (2024-10-07T08:23:05Z)
EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。感情のカテゴリや強度のきめ細かい制御を可能にする。他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-09-11T13:23:22Z)
Towards Localized Fine-Grained Control for Facial Expression Generation [54.82883891478555]
人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。
論文参考訳（メタデータ） (2024-07-25T18:29:48Z)
FlowVQTalker: High-Quality Emotional Talking Face Generation through Normalizing Flow and Quantization [4.429892245774265]
本稿では,正規化フローとベクトル量子化モデルを用いて感情的な発話顔を生成することを提案する。具体的には、顔の感情のダイナミクスを多感情階級の潜在空間にエンコードするフローベース係数生成器を開発する。設計したベクトル量子化画像生成器は、コードクエリータスクとして表現力のある顔画像を作成する。
論文参考訳（メタデータ） (2024-03-11T01:58:04Z)
EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face Generation [34.5592743467339]
微粒な顔のアニメーションを生成する視覚属性誘導型オーディオデカップラを提案する。より正確な感情表現を実現するために,よりきめ細かな感情係数予測モジュールを導入する。提案手法であるEmoSpeakerは,表情の変動や唇の同期の点で,既存の感情音声生成法よりも優れていた。
論文参考訳（メタデータ） (2024-02-02T14:04:18Z)
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文参考訳（メタデータ） (2024-01-03T18:55:16Z)
DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文参考訳（メタデータ） (2023-12-21T05:03:18Z)
Audio-Driven Emotional Video Portraits [79.95687903497354]
Emotional Video Portraits(EVP)は、オーディオによって駆動される鮮やかな感情的なダイナミクスで高品質のビデオポートレートを合成するシステムです。具体的には,音声を2つの分離空間に分解するクロスリコンストラクテッド感情不等角化手法を提案する。ゆがんだ特徴によって、動的2D感情的な顔のランドマークは推定することができます。次に,最終的な高品質映像画像を生成するために,ターゲット適応型顔合成手法を提案する。
論文参考訳（メタデータ） (2021-04-15T13:37:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。