論文の概要: SPACEx: Speech-driven Portrait Animation with Controllable Expression
- arxiv url: http://arxiv.org/abs/2211.09809v1
- Date: Thu, 17 Nov 2022 18:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:47:06.596321
- Title: SPACEx: Speech-driven Portrait Animation with Controllable Expression
- Title(参考訳): SPACEx:制御可能な表現を用いた音声駆動画像アニメーション
- Authors: Siddharth Gururani, Arun Mallya, Ting-Chun Wang, Rafael Valle, Ming-Yu
Liu
- Abstract要約: 本研究では、音声と1つの画像を用いて、リアルな頭部ポーズで表現力のある映像を生成するSPACExを提案する。
顔のランドマークの制御性と、事前訓練された顔生成装置の高品質な合成能力を組み合わせた多段階的なアプローチを用いる。
- 参考スコア(独自算出の注目度): 31.99644011371433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Animating portraits using speech has received growing attention in recent
years, with various creative and practical use cases. An ideal generated video
should have good lip sync with the audio, natural facial expressions and head
motions, and high frame quality. In this work, we present SPACEx, which uses
speech and a single image to generate high-resolution, and expressive videos
with realistic head pose, without requiring a driving video. It uses a
multi-stage approach, combining the controllability of facial landmarks with
the high-quality synthesis power of a pretrained face generator. SPACEx also
allows for the control of emotions and their intensities. Our method
outperforms prior methods in objective metrics for image quality and facial
motions and is strongly preferred by users in pair-wise comparisons. The
project website is available at https://deepimagination.cc/SPACEx/
- Abstract(参考訳): 近年,音声による肖像画のアニメーション化が注目されている。
理想的な生成ビデオは、オーディオ、自然な表情、頭部の動きと良好な唇のシンク、フレーム品質を持つべきである。
本研究では,音声と単一画像を用いて,リアルな頭部ポーズで高解像度で表現力のある映像を生成するSPACExを提案する。
顔ランドマークの制御性と事前訓練された顔発生装置の高品質な合成能力を組み合わせた多段階的アプローチを採用している。
SPACExはまた、感情とその強度を制御できる。
提案手法は,画像品質と顔の動きの客観的指標において,先行手法よりも優れており,対比較では利用者に好まれる。
プロジェクトのwebサイトはhttps://deepimagination.cc/spacex/で入手できる。
関連論文リスト
- JoyVASA: Portrait and Animal Image Animation with Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation [10.003794924759765]
JoyVASAは、音声駆動型顔アニメーションにおける顔の動きと頭部の動きを生成する拡散法である。
本研究では,静的な3次元顔表現から動的表情を分離する分離された顔表現フレームワークを提案する。
第2段階では、拡散変圧器を訓練し、文字の同一性によらず、オーディオキューから直接動作シーケンスを生成する。
論文 参考訳(メタデータ) (2024-11-14T06:13:05Z) - Audio-Driven Emotional 3D Talking-Head Generation [47.6666060652434]
本稿では,高精度な感情表現による高忠実・音声駆動型映像像の合成システムを提案する。
本研究では,無声音声入力に応答して自然なアイドル状態(非話者)ビデオを生成するポーズサンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-07T08:23:05Z) - DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。
現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。
音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文 参考訳(メタデータ) (2024-08-12T08:56:49Z) - One-Shot Pose-Driving Face Animation Platform [7.422568903818486]
我々は、Face LocatorとMotion Frame機構を統合することで、既存のImage2Videoモデルを洗練する。
我々は、人間の顔ビデオデータセットを用いてモデルを最適化し、高品質な音声ヘッドビデオを作成する能力を大幅に向上させる。
そこで我々は,Gradioフレームワークを用いたデモプラットフォームを開発し,プロセスの合理化を図り,ユーザがカスタマイズした音声ヘッドビデオを簡単に作成できるようにする。
論文 参考訳(メタデータ) (2024-07-12T03:09:07Z) - GMTalker: Gaussian Mixture-based Audio-Driven Emotional talking video Portraits [37.12506653015298]
GMTalkerはガウスの混合合成による感情的な音声画像生成フレームワークである。
具体的には,よりフレキシブルな感情操作を実現するために,連続的かつ不整合な潜在空間を提案する。
また,多種多様な頭部ポーズ,瞬き,眼球運動を生成するために,大規模データセット上で事前訓練された正規化フローベースモーションジェネレータを導入する。
論文 参考訳(メタデータ) (2023-12-12T19:03:04Z) - AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive Speech-Driven 3D Facial Animation [49.4220768835379]
AdaMeshは、適応的な音声駆動の顔アニメーションアプローチである。
約10秒間の参照ビデオから、パーソナライズされた話し方を学ぶ。
鮮やかな表情と頭部のポーズを生成する。
論文 参考訳(メタデータ) (2023-10-11T06:56:08Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Audio-Driven Emotional Video Portraits [79.95687903497354]
Emotional Video Portraits(EVP)は、オーディオによって駆動される鮮やかな感情的なダイナミクスで高品質のビデオポートレートを合成するシステムです。
具体的には,音声を2つの分離空間に分解するクロスリコンストラクテッド感情不等角化手法を提案する。
ゆがんだ特徴によって、動的2D感情的な顔のランドマークは推定することができます。
次に,最終的な高品質映像画像を生成するために,ターゲット適応型顔合成手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T13:37:13Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。