論文の概要: EAMM: One-Shot Emotional Talking Face via Audio-Based Emotion-Aware
Motion Model
- arxiv url: http://arxiv.org/abs/2205.15278v1
- Date: Mon, 30 May 2022 17:39:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 17:00:06.957155
- Title: EAMM: One-Shot Emotional Talking Face via Audio-Based Emotion-Aware
Motion Model
- Title(参考訳): EAMM:音声による感情認識運動モデルによるワンショット感情会話
- Authors: Xinya Ji, Hang Zhou, Kaisiyuan Wang, Qianyi Wu, Wayne Wu, Feng Xu, Xun
Cao
- Abstract要約: 本研究では,感情認識運動モデル(EAMM)を提案する。
両モジュールの結果を組み込むことで,任意の被験者に対して良好な話し声を生成できる。
- 参考スコア(独自算出の注目度): 32.19539143308341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although significant progress has been made to audio-driven talking face
generation, existing methods either neglect facial emotion or cannot be applied
to arbitrary subjects. In this paper, we propose the Emotion-Aware Motion Model
(EAMM) to generate one-shot emotional talking faces by involving an emotion
source video. Specifically, we first propose an Audio2Facial-Dynamics module,
which renders talking faces from audio-driven unsupervised zero- and
first-order key-points motion. Then through exploring the motion model's
properties, we further propose an Implicit Emotion Displacement Learner to
represent emotion-related facial dynamics as linearly additive displacements to
the previously acquired motion representations. Comprehensive experiments
demonstrate that by incorporating the results from both modules, our method can
generate satisfactory talking face results on arbitrary subjects with realistic
emotion patterns.
- Abstract(参考訳): 音声による発話顔生成には大きな進歩があったが、既存の方法は顔の感情を無視するか、任意の被験者に適用できない。
本稿では、感情源映像を取り入れたワンショットの感情会話顔を生成するための感情認識運動モデル(EAMM)を提案する。
具体的には,まず音声駆動非教師なしのゼロ・ファースト・オーダー・キーポイント・モーションから対話面を描画するaudio2facial-dynamicsモジュールを提案する。
さらに, 動きモデルの特性を探索し, 感情関係の表情動態を, 以前取得した動き表現に対する線形付加的変位として表現するインプリシット感情変位学習器を提案する。
包括的実験により,両モジュールの結果を組み込むことで,現実的な感情パターンを持つ任意の被験者に対して,良好な話し面結果を生成することができることを示した。
関連論文リスト
- EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face
Generation [34.5592743467339]
微粒な顔のアニメーションを生成する視覚属性誘導型オーディオデカップラを提案する。
より正確な感情表現を実現するために,よりきめ細かな感情係数予測モジュールを導入する。
提案手法であるEmoSpeakerは,表情の変動や唇の同期の点で,既存の感情音声生成法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-02T14:04:18Z) - Emotional Listener Portrait: Realistic Listener Motion Simulation in
Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。
このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。
本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。
ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文 参考訳(メタデータ) (2023-09-29T18:18:32Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - High-fidelity Generalized Emotional Talking Face Generation with
Multi-modal Emotion Space Learning [43.09015109281053]
よりフレキシブルで汎用的な顔生成フレームワークを提案する。
具体的には、テキストプロンプトで感情スタイルを補完し、テキスト、画像、音声の感情のモダリティを統一された空間に埋め込むためにアラインド・マルチモーダル・感情エンコーダを使用する。
感情条件と音声シーケンスを構造表現に接続する感情認識型オーディオ-to-3DMM変換器を提案する。
論文 参考訳(メタデータ) (2023-05-04T05:59:34Z) - Expressive Speech-driven Facial Animation with controllable emotions [12.201573788014622]
本稿では,音声から表情の表情を生成するための深層学習に基づく新しいアプローチを提案する。
広視野の表情を、制御可能な感情タイプと強度で表現することができる。
感情制御可能な顔アニメーションを可能にし、ターゲット表現を継続的に調整することができる。
論文 参考訳(メタデータ) (2023-01-05T11:17:19Z) - Invertable Frowns: Video-to-Video Facial Emotion Translation [0.0]
We present Wav2Lip-Emotion, a video-to-video translation architecture that modize face expression of emotion in video of speakers。
既存のマルチモーダルリップ同期アーキテクチャを拡張し、L1再構成と事前学習した感情目標を用いて話者の感情を変更する。
論文 参考訳(メタデータ) (2021-09-16T15:43:51Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z) - Audio-Driven Emotional Video Portraits [79.95687903497354]
Emotional Video Portraits(EVP)は、オーディオによって駆動される鮮やかな感情的なダイナミクスで高品質のビデオポートレートを合成するシステムです。
具体的には,音声を2つの分離空間に分解するクロスリコンストラクテッド感情不等角化手法を提案する。
ゆがんだ特徴によって、動的2D感情的な顔のランドマークは推定することができます。
次に,最終的な高品質映像画像を生成するために,ターゲット適応型顔合成手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T13:37:13Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z) - Speech Driven Talking Face Generation from a Single Image and an Emotion
Condition [28.52180268019401]
音声駆動音声合成における視覚的感情表現のレンダリングのための新しい手法を提案する。
本研究では, 音声音声, 単一顔画像, カテゴリー感情ラベルを入力として, エンドツーエンドの音声音声生成システムの設計を行う。
画像品質,視覚的同期,視覚的感情表現を客観的に評価した結果,提案システムは最先端のベースラインシステムよりも優れていた。
論文 参考訳(メタデータ) (2020-08-08T20:46:31Z) - Facial Expression Editing with Continuous Emotion Labels [76.36392210528105]
深層生成モデルは、自動表情編集の分野で素晴らしい成果を上げている。
連続した2次元の感情ラベルに従って顔画像の表情を操作できるモデルを提案する。
論文 参考訳(メタデータ) (2020-06-22T13:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。