論文の概要: Robust One Shot Audio to Video Generation
- arxiv url: http://arxiv.org/abs/2012.07842v1
- Date: Mon, 14 Dec 2020 10:50:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 02:58:25.190796
- Title: Robust One Shot Audio to Video Generation
- Title(参考訳): ロバストなワンショットオーディオからビデオ生成
- Authors: Neeraj Kumar, Srishti Goel, Ankur Narang, Mujtaba Hasan
- Abstract要約: OneShotA2Vは、音声信号と人の単一の見えないイメージを入力として使用し、任意の長さの会話者のビデオを合成する新しいアプローチです。
OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキングヘッドビデオを生成する。
- 参考スコア(独自算出の注目度): 10.957973845883162
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Audio to Video generation is an interesting problem that has numerous
applications across industry verticals including film making, multi-media,
marketing, education and others. High-quality video generation with expressive
facial movements is a challenging problem that involves complex learning steps
for generative adversarial networks. Further, enabling one-shot learning for an
unseen single image increases the complexity of the problem while
simultaneously making it more applicable to practical scenarios. In the paper,
we propose a novel approach OneShotA2V to synthesize a talking person video of
arbitrary length using as input: an audio signal and a single unseen image of a
person. OneShotA2V leverages curriculum learning to learn movements of
expressive facial components and hence generates a high-quality talking-head
video of the given person. Further, it feeds the features generated from the
audio input directly into a generative adversarial network and it adapts to any
given unseen selfie by applying fewshot learning with only a few output
updation epochs. OneShotA2V leverages spatially adaptive normalization based
multi-level generator and multiple multi-level discriminators based
architecture. The input audio clip is not restricted to any specific language,
which gives the method multilingual applicability. Experimental evaluation
demonstrates superior performance of OneShotA2V as compared to Realistic
Speech-Driven Facial Animation with GANs(RSDGAN) [43], Speech2Vid [8], and
other approaches, on multiple quantitative metrics including: SSIM (structural
similarity index), PSNR (peak signal to noise ratio) and CPBD (image
sharpness). Further, qualitative evaluation and Online Turing tests demonstrate
the efficacy of our approach.
- Abstract(参考訳): オーディオ・トゥ・ビデオ生成は興味深い問題であり、映画製作、マルチメディア、マーケティング、教育などの業界分野に多くの応用がある。
表現力のある顔の動きを持つ高品質のビデオ生成は、生成的対向ネットワークのための複雑な学習ステップを伴う難しい問題である。
さらに、未認識の単一画像に対してワンショット学習を可能にすることで、問題の複雑さが増し、同時に実用的なシナリオにも適用できる。
本稿では,音声信号と一人の未確認画像とを入力として,任意の長さの音声映像を合成するための新しい手法であるOneShotA2Vを提案する。
OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキー映像を生成する。
さらに、音声入力から生成した特徴を直接生成対向ネットワークに供給し、少数のアップダデーションエポックのみを施したスナップショット学習を適用することにより、任意の未確認自撮りに適応する。
OneShotA2Vは空間適応正規化に基づくマルチレベルジェネレータとマルチレベル識別器ベースのアーキテクチャを利用する。
入力された音声クリップは特定の言語に制限されず、メソッドの多言語適用性を与える。
SSIM(構造類似度指数)、PSNR(ピーク信号対雑音比)、PBD(画像のシャープネス)など、複数の定量的指標を用いて、1ShotA2Vの性能をGAN(RSDGAN)[43]、Speech2Vid[8]などによるリアル音声駆動顔画像と比較した。
さらに,定性評価とオンラインチューリングテストにより,本手法の有効性が示された。
関連論文リスト
- Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild [44.92322575562816]
本稿では,その変動の中で唇と音声列を関連付けることを学習するVAE-GANアーキテクチャを提案する。
私たちのジェネレータは、あらゆる人の唇のシーケンスに対して、あらゆる声で音声を合成することを学びます。
我々は、アーキテクチャの異なるモジュールの効果を分析するために、多数のアブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-09-01T17:50:29Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z) - One Shot Audio to Animated Video Generation [15.148595295859659]
本稿では,音声クリップと一人の未確認画像を入力として,任意の長さのアニメーション映像を生成する手法を提案する。
OneShotAu2AVは、(a)オーディオと同期している唇の動き、(b)点滅やまぶたの動きなどの自然な表情、(c)頭の動きなどのアニメーションビデオを生成することができます。
論文 参考訳(メタデータ) (2021-02-19T04:29:17Z) - Multi Modal Adaptive Normalization for Audio to Video Generation [18.812696623555855]
本稿では,音声信号と人物の単一画像とを入力として,任意の長さの人物映像を合成するマルチモーダル適応正規化(MAN)アーキテクチャを提案する。
このアーキテクチャでは,マルチモーダル適応正規化,キーポイントヒートマップ予測器,光フロー予測器,およびクラスアクティベーションマップ[58]ベースのレイヤを用いて,表情成分の動きを学習する。
論文 参考訳(メタデータ) (2020-12-14T07:39:45Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。