論文の概要: Facial Keypoint Sequence Generation from Audio
- arxiv url: http://arxiv.org/abs/2011.01114v1
- Date: Mon, 2 Nov 2020 16:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 12:49:19.732500
- Title: Facial Keypoint Sequence Generation from Audio
- Title(参考訳): 音声による顔のキーポイントシーケンス生成
- Authors: Prateek Manocha and Prithwijit Guha
- Abstract要約: 本研究は,音声キーポイントデータセットを提案し,任意の長さの音声を出力する上で有効なキーポイントシーケンスを出力するモデルを学習する。
オーディオキーポイントデータセットを提案して、任意の長さのオーディオを出力するためのモデルを学ぶ最初の作品である。
- 参考スコア(独自算出の注目度): 2.66512000865131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whenever we speak, our voice is accompanied by facial movements and
expressions. Several recent works have shown the synthesis of highly
photo-realistic videos of talking faces, but they either require a source video
to drive the target face or only generate videos with a fixed head pose. This
lack of facial movement is because most of these works focus on the lip
movement in sync with the audio while assuming the remaining facial keypoints'
fixed nature. To address this, a unique audio-keypoint dataset of over 150,000
videos at 224p and 25fps is introduced that relates the facial keypoint
movement for the given audio. This dataset is then further used to train the
model, Audio2Keypoint, a novel approach for synthesizing facial keypoint
movement to go with the audio. Given a single image of the target person and an
audio sequence (in any language), Audio2Keypoint generates a plausible keypoint
movement sequence in sync with the input audio, conditioned on the input image
to preserve the target person's facial characteristics. To the best of our
knowledge, this is the first work that proposes an audio-keypoint dataset and
learns a model to output the plausible keypoint sequence to go with audio of
any arbitrary length. Audio2Keypoint generalizes across unseen people with a
different facial structure allowing us to generate the sequence with the voice
from any source or even synthetic voices. Instead of learning a direct mapping
from audio to video domain, this work aims to learn the audio-keypoint mapping
that allows for in-plane and out-of-plane head rotations, while preserving the
person's identity using a Pose Invariant (PIV) Encoder.
- Abstract(参考訳): 話すたびに、私たちの声には顔の動きと表情が伴います。
いくつかの最近の研究では、会話する顔の高度に写実的なビデオが合成されているが、ターゲットの顔を動かすためにソースビデオを必要とするか、固定された頭ポーズでビデオを生成するだけである。
この顔の動きの欠如は、これらの作品のほとんどが、残りの顔のキーポイントの固定的な性質を仮定しながら、音声と同期して唇の動きに焦点を当てているためである。
これを解決するために、224pと25fpsで15万本以上のビデオのユニークなオーディオキーポイントデータセットを導入し、与えられたオーディオの顔キーポイントの動きを関連づける。
このデータセットは、さらにモデルであるaudio2keypointをトレーニングするために使われます。
ターゲット人物の1つの画像とオーディオシーケンス(任意の言語で)が与えられた後、Audio2Keypointは入力された音声と同期して、入力画像に条件付けされた可塑性キーポイント移動シーケンスを生成し、対象人物の顔の特徴を保存する。
我々の知る限りでは、これはオーディオキーポイントデータセットを提案して、任意の長さの音声を出力するための可算キーポイントシーケンスを出力するモデルを学ぶ最初の作品である。
Audio2Keypointは、異なる顔構造を持つ見えない人々を一般化し、あらゆる音源や合成音声から音声のシーケンスを生成する。
この研究は、音声からビデオ領域への直接マッピングを学ぶ代わりに、PIVエンコーダを用いて人物の身元を保存しながら、平面内および平面外の頭部回転を可能にするオーディオキーポイントマッピングを学習することを目的としている。
関連論文リスト
- Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-04-18T12:36:15Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - A Keypoint Based Enhancement Method for Audio Driven Free View Talking
Head Synthesis [14.303621416852602]
音声駆動型自由視点音声ヘッド合成のためのキーポイントベース拡張(KPBE)手法を提案する。
実験の結果,提案手法により,平均意見スコアによる音声の質が向上した。
論文 参考訳(メタデータ) (2022-10-07T05:44:10Z) - StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation [47.06075725469252]
StyleTalkerは音声駆動のトーキングヘッド生成モデルである。
単一の参照画像から話し手の映像を合成することができる。
我々のモデルは、音声ヘッドビデオを印象的な品質で合成することができる。
論文 参考訳(メタデータ) (2022-08-23T12:49:01Z) - One-shot Talking Face Generation from Single-speaker Audio-Visual
Correlation Learning [20.51814865676907]
特定の話者から一貫した音声スタイルを学ぶ方がずっと簡単で、それが本物の口の動きにつながる。
本研究では,特定の話者からの音声と視覚の動きの一致した相関関係を探索し,一対一の会話顔生成フレームワークを提案する。
学習した一貫した話し方のおかげで,本手法は真正な口の形状と鮮明な動きを生成する。
論文 参考訳(メタデータ) (2021-12-06T02:53:51Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z) - Everybody's Talkin': Let Me Talk as You Want [134.65914135774605]
本稿では,写真リアルな映像を合成するために,音声のシーケンスを入力とし,対象の肖像画を編集する手法を提案する。
任意のソースオーディオを任意のビデオ出力に変換することのできる、個人固有のレンダリングネットワークを前提としない。
論文 参考訳(メタデータ) (2020-01-15T09:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。