論文の概要: One Shot Audio to Animated Video Generation
- arxiv url: http://arxiv.org/abs/2102.09737v1
- Date: Fri, 19 Feb 2021 04:29:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-22 15:28:50.564862
- Title: One Shot Audio to Animated Video Generation
- Title(参考訳): ワンショットオーディオからアニメーションビデオ生成へ
- Authors: Neeraj Kumar, Srishti Goel, Ankur Narang, Brejesh Lall, Mujtaba Hasan,
Pranshu Agarwal, Dipankar Sarkar
- Abstract要約: 本稿では,音声クリップと一人の未確認画像を入力として,任意の長さのアニメーション映像を生成する手法を提案する。
OneShotAu2AVは、(a)オーディオと同期している唇の動き、(b)点滅やまぶたの動きなどの自然な表情、(c)頭の動きなどのアニメーションビデオを生成することができます。
- 参考スコア(独自算出の注目度): 15.148595295859659
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We consider the challenging problem of audio to animated video generation. We
propose a novel method OneShotAu2AV to generate an animated video of arbitrary
length using an audio clip and a single unseen image of a person as an input.
The proposed method consists of two stages. In the first stage, OneShotAu2AV
generates the talking-head video in the human domain given an audio and a
person's image. In the second stage, the talking-head video from the human
domain is converted to the animated domain. The model architecture of the first
stage consists of spatially adaptive normalization based multi-level generator
and multiple multilevel discriminators along with multiple adversarial and
non-adversarial losses. The second stage leverages attention based
normalization driven GAN architecture along with temporal predictor based
recycle loss and blink loss coupled with lipsync loss, for unsupervised
generation of animated video. In our approach, the input audio clip is not
restricted to any specific language, which gives the method multilingual
applicability. OneShotAu2AV can generate animated videos that have: (a) lip
movements that are in sync with the audio, (b) natural facial expressions such
as blinks and eyebrow movements, (c) head movements. Experimental evaluation
demonstrates superior performance of OneShotAu2AV as compared to U-GAT-IT and
RecycleGan on multiple quantitative metrics including KID(Kernel Inception
Distance), Word error rate, blinks/sec
- Abstract(参考訳): オーディオからアニメーションビデオ生成への挑戦的な問題を検討します。
本稿では,音声クリップと一人の未確認画像を入力として,任意の長さの動画を生成する新しい手法OneShotAu2AVを提案する。
提案手法は2段階からなる。
第1段階では、OneShotAu2AVは、音声と人の画像が与えられたヒト領域のトーキングヘッド映像を生成する。
第2段階では、人間のドメインからのトークヘッドビデオがアニメーションドメインに変換される。
第1段階のモデルアーキテクチャは、空間適応正規化に基づくマルチレベル生成器と複数のマルチレベル判別器と、複数の逆および非逆損失からなる。
第2段階では、注意に基づく正規化駆動型GANアーキテクチャと、時間的予測に基づくリサイクルロスと点滅損失をリップ非同期ロスと組み合わせて、監視されていないアニメーションビデオの生成に活用する。
提案手法では,入力音声クリップは特定の言語に制限されないため,多言語対応が可能である。
OneShotAu2AVは、(a)オーディオと同期している唇の動き、(b)点滅やまぶたの動きなどの自然な表情、(c)頭の動きなどのアニメーションビデオを生成することができます。
KID(Kernel Inception Distance), Word error rate, blinks/secなど, 複数の定量的指標を用いたOneShotAu2AVの性能評価
関連論文リスト
- UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Diff2Lip: Audio Conditioned Diffusion Models for Lip-Synchronization [38.64540967776744]
Diff2Lip(ディフ2リップ)は、これらの特性を保ちながら唇の同期を行うことができる、オーディオ条件の拡散ベースモデルである。
本稿では,Voxceleb2 と LRW のデータセット上で,再構成(音声-ビデオ入力)とクロス設定(音声-ビデオ入力)の両方について結果を示す。
論文 参考訳(メタデータ) (2023-08-18T17:59:40Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation [47.06075725469252]
StyleTalkerは音声駆動のトーキングヘッド生成モデルである。
単一の参照画像から話し手の映像を合成することができる。
我々のモデルは、音声ヘッドビデオを印象的な品質で合成することができる。
論文 参考訳(メタデータ) (2022-08-23T12:49:01Z) - FaceFormer: Speech-Driven 3D Facial Animation with Transformers [46.8780140220063]
音声駆動の3D顔アニメーションは、人間の顔の複雑な形状と、3Dオーディオ視覚データの利用が制限されているため、難しい。
本研究では,トランスフォーマーをベースとした自動回帰モデルFaceFormerを提案し,長期音声コンテキストを符号化し,アニメーション3D顔メッシュのシーケンスを自動回帰予測する。
論文 参考訳(メタデータ) (2021-12-10T04:21:59Z) - Robust One Shot Audio to Video Generation [10.957973845883162]
OneShotA2Vは、音声信号と人の単一の見えないイメージを入力として使用し、任意の長さの会話者のビデオを合成する新しいアプローチです。
OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキングヘッドビデオを生成する。
論文 参考訳(メタデータ) (2020-12-14T10:50:05Z) - Multi Modal Adaptive Normalization for Audio to Video Generation [18.812696623555855]
本稿では,音声信号と人物の単一画像とを入力として,任意の長さの人物映像を合成するマルチモーダル適応正規化(MAN)アーキテクチャを提案する。
このアーキテクチャでは,マルチモーダル適応正規化,キーポイントヒートマップ予測器,光フロー予測器,およびクラスアクティベーションマップ[58]ベースのレイヤを用いて,表情成分の動きを学習する。
論文 参考訳(メタデータ) (2020-12-14T07:39:45Z) - Everybody's Talkin': Let Me Talk as You Want [134.65914135774605]
本稿では,写真リアルな映像を合成するために,音声のシーケンスを入力とし,対象の肖像画を編集する手法を提案する。
任意のソースオーディオを任意のビデオ出力に変換することのできる、個人固有のレンダリングネットワークを前提としない。
論文 参考訳(メタデータ) (2020-01-15T09:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。