論文の概要: Stochastic Talking Face Generation Using Latent Distribution Matching
- arxiv url: http://arxiv.org/abs/2011.10727v1
- Date: Sat, 21 Nov 2020 06:05:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 23:24:51.725704
- Title: Stochastic Talking Face Generation Using Latent Distribution Matching
- Title(参考訳): 潜在分布マッチングを用いた確率的発話顔生成
- Authors: Ravindra Yadav, Ashish Sardana, Vinay P Namboodiri, Rajesh M Hegde
- Abstract要約: ビデオ配信の複数のモードをキャプチャできる教師なしオーディオ・ビデオ生成モデルを提案する。
LRWおよびGRIDデータセットに有効性を示し、ベースラインよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 29.423462898526605
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The ability to envisage the visual of a talking face based just on hearing a
voice is a unique human capability. There have been a number of works that have
solved for this ability recently. We differ from these approaches by enabling a
variety of talking face generations based on single audio input. Indeed, just
having the ability to generate a single talking face would make a system almost
robotic in nature. In contrast, our unsupervised stochastic audio-to-video
generation model allows for diverse generations from a single audio input.
Particularly, we present an unsupervised stochastic audio-to-video generation
model that can capture multiple modes of the video distribution. We ensure that
all the diverse generations are plausible. We do so through a principled
multi-modal variational autoencoder framework. We demonstrate its efficacy on
the challenging LRW and GRID datasets and demonstrate performance better than
the baseline, while having the ability to generate multiple diverse lip
synchronized videos.
- Abstract(参考訳): 音声を聴くだけで、会話の顔の視覚を視覚化する能力は、ユニークな人間の能力である。
最近、この能力のために解決された多くの作品がある。
単一音声入力に基づく様々な発話顔生成を可能にすることで,これらのアプローチと異なる。
実際、単一の会話顔を生成する能力があれば、システムは本質的にほぼロボット的になる。
対照的に、我々の教師なし確率的オーディオ・ビデオ生成モデルは、単一のオーディオ入力から様々な世代を生成することができる。
特に,ビデオ配信の複数のモードをキャプチャ可能な教師なし確率的音声対ビデオ生成モデルを提案する。
我々は全ての多様な世代が 実現可能であることを保証します
原理化されたマルチモーダル変分オートエンコーダフレームワークによって実現している。
我々は、LRWとGRIDデータセットにその効果を示し、複数の多様な唇同期ビデオを生成する能力を有しながら、ベースラインよりも優れた性能を示す。
関連論文リスト
- DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation [50.66658181705527]
本稿では,動的長大映像のオール・アット・オンス生成を可能にするフレームワークであるDAWNを提案する。
DAWNは,(1)潜在動作空間における音声駆動型顔力学生成,(2)音声駆動型頭部ポーズと点滅生成の2つの主要成分から構成される。
本手法は, 唇の動きを正確に表現し, 自然なポーズ・瞬き動作を特徴とする実写映像と鮮明な映像を生成する。
論文 参考訳(メタデータ) (2024-10-17T16:32:36Z) - DiffTED: One-shot Audio-driven TED Talk Video Generation with Diffusion-based Co-speech Gestures [27.763304632981882]
DiffTEDは、1つの画像から1ショットの音声駆動音声ビデオを生成する新しいアプローチである。
我々は拡散モデルを利用して、薄膜スプライン運動モデルのためのキーポイントのシーケンスを生成する。
実験により、DiffTEDは多様な音声のジェスチャーによる時間的コヒーレントな会話ビデオを生成することが示された。
論文 参考訳(メタデータ) (2024-09-11T22:31:55Z) - CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations [97.75037148056367]
CoVoMixは、ゼロショット、人間ライク、マルチスピーカー、マルチラウンド対話音声生成のための新しいモデルである。
対話モデリングと生成の有効性を測定するための総合的なメトリクスセットを考案する。
論文 参考訳(メタデータ) (2024-04-10T02:32:58Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。
拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。
本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-01-06T14:16:54Z) - Talking Head Generation with Probabilistic Audio-to-Visual Diffusion
Priors [18.904856604045264]
ワンショット音声駆動音声ヘッド生成のためのシンプルで斬新なフレームワークを提案する。
入力音声を意味的に一致させるために,全唇不関連顔の動きを確率的にサンプリングする。
従来の拡散の確率的性質のおかげで、我々のフレームワークの大きな利点は、多様な顔の動きシーケンスを合成できることである。
論文 参考訳(メタデータ) (2022-12-07T17:55:41Z) - Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild [44.92322575562816]
本稿では,その変動の中で唇と音声列を関連付けることを学習するVAE-GANアーキテクチャを提案する。
私たちのジェネレータは、あらゆる人の唇のシーケンスに対して、あらゆる声で音声を合成することを学びます。
我々は、アーキテクチャの異なるモジュールの効果を分析するために、多数のアブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-09-01T17:50:29Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - Robust One Shot Audio to Video Generation [10.957973845883162]
OneShotA2Vは、音声信号と人の単一の見えないイメージを入力として使用し、任意の長さの会話者のビデオを合成する新しいアプローチです。
OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキングヘッドビデオを生成する。
論文 参考訳(メタデータ) (2020-12-14T10:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。