論文の概要: Invertable Frowns: Video-to-Video Facial Emotion Translation
- arxiv url: http://arxiv.org/abs/2109.08061v1
- Date: Thu, 16 Sep 2021 15:43:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 16:45:38.322946
- Title: Invertable Frowns: Video-to-Video Facial Emotion Translation
- Title(参考訳): invertable frowns:ビデオからビデオへの感情翻訳
- Authors: Ian Magnusson and Aruna Sankaranarayanan and Andrew Lippman
- Abstract要約: We present Wav2Lip-Emotion, a video-to-video translation architecture that modize face expression of emotion in video of speakers。
既存のマルチモーダルリップ同期アーキテクチャを拡張し、L1再構成と事前学習した感情目標を用いて話者の感情を変更する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Wav2Lip-Emotion, a video-to-video translation architecture that
modifies facial expressions of emotion in videos of speakers. Previous work
modifies emotion in images, uses a single image to produce a video with
animated emotion, or puppets facial expressions in videos with landmarks from a
reference video. However, many use cases such as modifying an actor's
performance in post-production, coaching individuals to be more animated
speakers, or touching up emotion in a teleconference require a video-to-video
translation approach. We explore a method to maintain speakers' lip movements,
identity, and pose while translating their expressed emotion. Our approach
extends an existing multi-modal lip synchronization architecture to modify the
speaker's emotion using L1 reconstruction and pre-trained emotion objectives.
We also propose a novel automated emotion evaluation approach and corroborate
it with a user study. These find that we succeed in modifying emotion while
maintaining lip synchronization. Visual quality is somewhat diminished, with a
trade off between greater emotion modification and visual quality between model
variants. Nevertheless, we demonstrate (1) that facial expressions of emotion
can be modified with nothing other than L1 reconstruction and pre-trained
emotion objectives and (2) that our automated emotion evaluation approach
aligns with human judgements.
- Abstract(参考訳): 提案するwav2lip-emotionは,話し手の映像における感情の表情を変化させるビデオからビデオへの翻訳アーキテクチャである。
以前の作品では、イメージ内の感情を修正したり、単一の画像を使ってアニメーションされた感情を持ったビデオを作成したり、参照ビデオからランドマークのあるビデオで表情をパペットしたりしている。
しかし、ポストプロダクションでの俳優の演技の修正、個人をよりアニメーションスピーカーに指導したり、テレ会議で感情に触れたりといった多くのユースケースでは、ビデオからビデオへの翻訳アプローチが必要となる。
表現された感情を翻訳しながら、話者の唇の動き、アイデンティティ、ポーズを維持する方法を探る。
提案手法は,既存のマルチモーダルリップ同期アーキテクチャを拡張し,l1再構成と事前学習された感情目標を用いて話者の感情を変化させる。
また,新しい感情自動評価手法を提案し,ユーザスタディと照合する。
これらの結果から, 唇の同期を維持しながら感情を変化させることに成功した。
視覚的品質は若干低下しており、感情の変化とモデル間の視覚的品質のトレードオフがある。
しかしながら,(1) 感情の表情をL1再構成と事前訓練された感情目標だけで修正できること,(2) 自動感情評価アプローチは人間の判断と一致していることを示す。
関連論文リスト
- Audio-Driven Emotional 3D Talking-Head Generation [47.6666060652434]
本稿では,高精度な感情表現による高忠実・音声駆動型映像像の合成システムを提案する。
本研究では,無声音声入力に応答して自然なアイドル状態(非話者)ビデオを生成するポーズサンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-07T08:23:05Z) - EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。
感情のカテゴリや強度のきめ細かい制御を可能にする。
他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-11T13:23:22Z) - EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face
Generation [34.5592743467339]
微粒な顔のアニメーションを生成する視覚属性誘導型オーディオデカップラを提案する。
より正確な感情表現を実現するために,よりきめ細かな感情係数予測モジュールを導入する。
提案手法であるEmoSpeakerは,表情の変動や唇の同期の点で,既存の感情音声生成法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-02T14:04:18Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - EAMM: One-Shot Emotional Talking Face via Audio-Based Emotion-Aware
Motion Model [32.19539143308341]
本研究では,感情認識運動モデル(EAMM)を提案する。
両モジュールの結果を組み込むことで,任意の被験者に対して良好な話し声を生成できる。
論文 参考訳(メタデータ) (2022-05-30T17:39:45Z) - Audio-Driven Emotional Video Portraits [79.95687903497354]
Emotional Video Portraits(EVP)は、オーディオによって駆動される鮮やかな感情的なダイナミクスで高品質のビデオポートレートを合成するシステムです。
具体的には,音声を2つの分離空間に分解するクロスリコンストラクテッド感情不等角化手法を提案する。
ゆがんだ特徴によって、動的2D感情的な顔のランドマークは推定することができます。
次に,最終的な高品質映像画像を生成するために,ターゲット適応型顔合成手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T13:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。