論文の概要: Stochastic Talking Face Generation Using Latent Distribution Matching
- arxiv url: http://arxiv.org/abs/2011.10727v1
- Date: Sat, 21 Nov 2020 06:05:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 23:24:51.725704
- Title: Stochastic Talking Face Generation Using Latent Distribution Matching
- Title(参考訳): 潜在分布マッチングを用いた確率的発話顔生成
- Authors: Ravindra Yadav, Ashish Sardana, Vinay P Namboodiri, Rajesh M Hegde
- Abstract要約: ビデオ配信の複数のモードをキャプチャできる教師なしオーディオ・ビデオ生成モデルを提案する。
LRWおよびGRIDデータセットに有効性を示し、ベースラインよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 29.423462898526605
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The ability to envisage the visual of a talking face based just on hearing a
voice is a unique human capability. There have been a number of works that have
solved for this ability recently. We differ from these approaches by enabling a
variety of talking face generations based on single audio input. Indeed, just
having the ability to generate a single talking face would make a system almost
robotic in nature. In contrast, our unsupervised stochastic audio-to-video
generation model allows for diverse generations from a single audio input.
Particularly, we present an unsupervised stochastic audio-to-video generation
model that can capture multiple modes of the video distribution. We ensure that
all the diverse generations are plausible. We do so through a principled
multi-modal variational autoencoder framework. We demonstrate its efficacy on
the challenging LRW and GRID datasets and demonstrate performance better than
the baseline, while having the ability to generate multiple diverse lip
synchronized videos.
- Abstract(参考訳): 音声を聴くだけで、会話の顔の視覚を視覚化する能力は、ユニークな人間の能力である。
最近、この能力のために解決された多くの作品がある。
単一音声入力に基づく様々な発話顔生成を可能にすることで,これらのアプローチと異なる。
実際、単一の会話顔を生成する能力があれば、システムは本質的にほぼロボット的になる。
対照的に、我々の教師なし確率的オーディオ・ビデオ生成モデルは、単一のオーディオ入力から様々な世代を生成することができる。
特に,ビデオ配信の複数のモードをキャプチャ可能な教師なし確率的音声対ビデオ生成モデルを提案する。
我々は全ての多様な世代が 実現可能であることを保証します
原理化されたマルチモーダル変分オートエンコーダフレームワークによって実現している。
我々は、LRWとGRIDデータセットにその効果を示し、複数の多様な唇同期ビデオを生成する能力を有しながら、ベースラインよりも優れた性能を示す。
関連論文リスト
- FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces
from Disentangled Audio [47.070848508118836]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。
拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。
本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-01-06T14:16:54Z) - Talking Head Generation with Probabilistic Audio-to-Visual Diffusion
Priors [18.904856604045264]
ワンショット音声駆動音声ヘッド生成のためのシンプルで斬新なフレームワークを提案する。
入力音声を意味的に一致させるために,全唇不関連顔の動きを確率的にサンプリングする。
従来の拡散の確率的性質のおかげで、我々のフレームワークの大きな利点は、多様な顔の動きシーケンスを合成できることである。
論文 参考訳(メタデータ) (2022-12-07T17:55:41Z) - Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild [44.92322575562816]
本稿では,その変動の中で唇と音声列を関連付けることを学習するVAE-GANアーキテクチャを提案する。
私たちのジェネレータは、あらゆる人の唇のシーケンスに対して、あらゆる声で音声を合成することを学びます。
我々は、アーキテクチャの異なるモジュールの効果を分析するために、多数のアブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-09-01T17:50:29Z) - StyleTalker: One-shot Style-based Audio-driven Talking Head Video
Generation [60.3813545478593]
StyleTalkerは音声駆動のトーキングヘッド生成モデルである。
単一の参照画像から話し手の映像を合成することができる。
我々のモデルは、音声ヘッドビデオを印象的な品質で合成することができる。
論文 参考訳(メタデータ) (2022-08-23T12:49:01Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - Robust One Shot Audio to Video Generation [10.957973845883162]
OneShotA2Vは、音声信号と人の単一の見えないイメージを入力として使用し、任意の長さの会話者のビデオを合成する新しいアプローチです。
OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキングヘッドビデオを生成する。
論文 参考訳(メタデータ) (2020-12-14T10:50:05Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。