論文の概要: SPACEx: Speech-driven Portrait Animation with Controllable Expression
- arxiv url: http://arxiv.org/abs/2211.09809v1
- Date: Thu, 17 Nov 2022 18:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:47:06.596321
- Title: SPACEx: Speech-driven Portrait Animation with Controllable Expression
- Title(参考訳): SPACEx:制御可能な表現を用いた音声駆動画像アニメーション
- Authors: Siddharth Gururani, Arun Mallya, Ting-Chun Wang, Rafael Valle, Ming-Yu
Liu
- Abstract要約: 本研究では、音声と1つの画像を用いて、リアルな頭部ポーズで表現力のある映像を生成するSPACExを提案する。
顔のランドマークの制御性と、事前訓練された顔生成装置の高品質な合成能力を組み合わせた多段階的なアプローチを用いる。
- 参考スコア(独自算出の注目度): 31.99644011371433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Animating portraits using speech has received growing attention in recent
years, with various creative and practical use cases. An ideal generated video
should have good lip sync with the audio, natural facial expressions and head
motions, and high frame quality. In this work, we present SPACEx, which uses
speech and a single image to generate high-resolution, and expressive videos
with realistic head pose, without requiring a driving video. It uses a
multi-stage approach, combining the controllability of facial landmarks with
the high-quality synthesis power of a pretrained face generator. SPACEx also
allows for the control of emotions and their intensities. Our method
outperforms prior methods in objective metrics for image quality and facial
motions and is strongly preferred by users in pair-wise comparisons. The
project website is available at https://deepimagination.cc/SPACEx/
- Abstract(参考訳): 近年,音声による肖像画のアニメーション化が注目されている。
理想的な生成ビデオは、オーディオ、自然な表情、頭部の動きと良好な唇のシンク、フレーム品質を持つべきである。
本研究では,音声と単一画像を用いて,リアルな頭部ポーズで高解像度で表現力のある映像を生成するSPACExを提案する。
顔ランドマークの制御性と事前訓練された顔発生装置の高品質な合成能力を組み合わせた多段階的アプローチを採用している。
SPACExはまた、感情とその強度を制御できる。
提案手法は,画像品質と顔の動きの客観的指標において,先行手法よりも優れており,対比較では利用者に好まれる。
プロジェクトのwebサイトはhttps://deepimagination.cc/spacex/で入手できる。
関連論文リスト
- EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with
Audio2Video Diffusion Model under Weak Conditions [20.062289952818666]
本稿では,直接音声合成手法を用いた新しいフレームワーク EMO を提案する。
本手法は,映像全体を通してシームレスなフレーム遷移と一貫したアイデンティティ保存を保証し,高い表現力とライフスタイルのアニメーションを実現する。
論文 参考訳(メタデータ) (2024-02-27T13:10:11Z) - GMTalker: Gaussian Mixture based Emotional talking video Portraits [39.82947742306969]
GMTalkerはガウスの混合表現に基づく感情的な話しの肖像画生成フレームワークである。
具体的には、よりフレキシブルな感情操作を実現するために、連続的でマルチモーダルな潜在空間を提案する。
最後に,感情マッピングネットワーク(EMN)を用いた感情誘導型ヘッドジェネレータを提案する。
論文 参考訳(メタデータ) (2023-12-12T19:03:04Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-04-18T12:36:15Z) - FaceXHuBERT: Text-less Speech-driven E(X)pressive 3D Facial Animation
Synthesis Using Self-Supervised Speech Representation Learning [0.0]
FaceXHuBERTは、テキストレス音声駆動の3D顔アニメーション生成方法である。
背景雑音に対して非常に頑丈で、様々な状況で録音された音声を処理できる。
アニメーションの写実性に関しては78%の精度で優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-09T17:05:19Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Audio-Driven Emotional Video Portraits [79.95687903497354]
Emotional Video Portraits(EVP)は、オーディオによって駆動される鮮やかな感情的なダイナミクスで高品質のビデオポートレートを合成するシステムです。
具体的には,音声を2つの分離空間に分解するクロスリコンストラクテッド感情不等角化手法を提案する。
ゆがんだ特徴によって、動的2D感情的な顔のランドマークは推定することができます。
次に,最終的な高品質映像画像を生成するために,ターゲット適応型顔合成手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T13:37:13Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。