論文の概要: Multi Modal Adaptive Normalization for Audio to Video Generation
- arxiv url: http://arxiv.org/abs/2012.07304v1
- Date: Mon, 14 Dec 2020 07:39:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 06:27:20.417531
- Title: Multi Modal Adaptive Normalization for Audio to Video Generation
- Title(参考訳): 音声から映像へのマルチモーダル適応正規化
- Authors: Neeraj Kumar, Srishti Goel, Ankur Narang, Brejesh Lall
- Abstract要約: 本稿では,音声信号と人物の単一画像とを入力として,任意の長さの人物映像を合成するマルチモーダル適応正規化(MAN)アーキテクチャを提案する。
このアーキテクチャでは,マルチモーダル適応正規化,キーポイントヒートマップ予測器,光フロー予測器,およびクラスアクティベーションマップ[58]ベースのレイヤを用いて,表情成分の動きを学習する。
- 参考スコア(独自算出の注目度): 18.812696623555855
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Speech-driven facial video generation has been a complex problem due to its
multi-modal aspects namely audio and video domain. The audio comprises lots of
underlying features such as expression, pitch, loudness, prosody(speaking
style) and facial video has lots of variability in terms of head movement, eye
blinks, lip synchronization and movements of various facial action units along
with temporal smoothness. Synthesizing highly expressive facial videos from the
audio input and static image is still a challenging task for generative
adversarial networks. In this paper, we propose a multi-modal adaptive
normalization(MAN) based architecture to synthesize a talking person video of
arbitrary length using as input: an audio signal and a single image of a
person. The architecture uses the multi-modal adaptive normalization, keypoint
heatmap predictor, optical flow predictor and class activation map[58] based
layers to learn movements of expressive facial components and hence generates a
highly expressive talking-head video of the given person. The multi-modal
adaptive normalization uses the various features of audio and video such as Mel
spectrogram, pitch, energy from audio signals and predicted keypoint
heatmap/optical flow and a single image to learn the respective affine
parameters to generate highly expressive video. Experimental evaluation
demonstrates superior performance of the proposed method as compared to
Realistic Speech-Driven Facial Animation with GANs(RSDGAN) [53], Speech2Vid
[10], and other approaches, on multiple quantitative metrics including: SSIM
(structural similarity index), PSNR (peak signal to noise ratio), CPBD (image
sharpness), WER(word error rate), blinks/sec and LMD(landmark distance).
Further, qualitative evaluation and Online Turing tests demonstrate the
efficacy of our approach.
- Abstract(参考訳): 音声とビデオドメインというマルチモーダルな側面のため、音声による顔ビデオ生成は複雑な問題となっている。
この音声は、表情、ピッチ、ラウドネス、韻律(話し方)といった多くの基礎的な特徴を含み、顔面ビデオは、頭の動き、目まぶし、唇の同期、様々な顔のアクションユニットの動作、および時間的滑らかさの点で多くのバリエーションを有する。
音声入力と静的画像から高度に表現力のある顔映像を合成することは、生成的敵ネットワークにとって依然として難しい課題である。
本稿では,音声信号と人物の単一画像とを入力として,任意の長さの人物映像を合成するマルチモーダル適応正規化(MAN)アーキテクチャを提案する。
本アーキテクチャでは,マルチモーダル適応正規化,キーポイントヒートマップ予測,光フロー予測,クラスアクティベーションマップ[58]をベースとしたレイヤを用いて表情的顔成分の動きを学習し,その人物の高度に表現力のあるトーキー映像を生成する。
マルチモーダル適応正規化では、メルスペクトログラム、ピッチ、音声信号からのエネルギー、予測されたキーポイントヒートマップ/オプティカルフローなどの音声およびビデオの様々な特徴と、各アフィンパラメータを学習し、高表現率な映像を生成する単一の画像を用いる。
ssim (structureural similarity index), psnr (peak signal to noise ratio), cpbd (image sharpness), wer (word error rate), blinks/sec, lmd (landmark distance) など複数の定量的指標について,gans (rsdgan) [53], speech2vid [10] を用いた現実的な音声駆動型顔アニメーションと比較し,提案手法の性能を実証した。
さらに,定性評価とオンラインチューリングテストにより,本手法の有効性が示された。
関連論文リスト
- FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces
from Disentangled Audio [47.070848508118836]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。
拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文 参考訳(メタデータ) (2023-12-25T04:40:32Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z) - StyleTalker: One-shot Style-based Audio-driven Talking Head Video
Generation [60.3813545478593]
StyleTalkerは音声駆動のトーキングヘッド生成モデルである。
単一の参照画像から話し手の映像を合成することができる。
我々のモデルは、音声ヘッドビデオを印象的な品質で合成することができる。
論文 参考訳(メタデータ) (2022-08-23T12:49:01Z) - One-shot Talking Face Generation from Single-speaker Audio-Visual
Correlation Learning [20.51814865676907]
特定の話者から一貫した音声スタイルを学ぶ方がずっと簡単で、それが本物の口の動きにつながる。
本研究では,特定の話者からの音声と視覚の動きの一致した相関関係を探索し,一対一の会話顔生成フレームワークを提案する。
学習した一貫した話し方のおかげで,本手法は真正な口の形状と鮮明な動きを生成する。
論文 参考訳(メタデータ) (2021-12-06T02:53:51Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - Robust One Shot Audio to Video Generation [10.957973845883162]
OneShotA2Vは、音声信号と人の単一の見えないイメージを入力として使用し、任意の長さの会話者のビデオを合成する新しいアプローチです。
OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキングヘッドビデオを生成する。
論文 参考訳(メタデータ) (2020-12-14T10:50:05Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。