Fugu-MT 論文翻訳(概要): Stochastic Talking Face Generation Using Latent Distribution Matching

論文の概要: Stochastic Talking Face Generation Using Latent Distribution Matching

arxiv url: http://arxiv.org/abs/2011.10727v1
Date: Sat, 21 Nov 2020 06:05:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-22 23:24:51.725704
Title: Stochastic Talking Face Generation Using Latent Distribution Matching
Title（参考訳）: 潜在分布マッチングを用いた確率的発話顔生成
Authors: Ravindra Yadav, Ashish Sardana, Vinay P Namboodiri, Rajesh M Hegde
Abstract要約: ビデオ配信の複数のモードをキャプチャできる教師なしオーディオ・ビデオ生成モデルを提案する。 LRWおよびGRIDデータセットに有効性を示し、ベースラインよりも優れた性能を示す。
参考スコア（独自算出の注目度）: 29.423462898526605
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The ability to envisage the visual of a talking face based just on hearing a voice is a unique human capability. There have been a number of works that have solved for this ability recently. We differ from these approaches by enabling a variety of talking face generations based on single audio input. Indeed, just having the ability to generate a single talking face would make a system almost robotic in nature. In contrast, our unsupervised stochastic audio-to-video generation model allows for diverse generations from a single audio input. Particularly, we present an unsupervised stochastic audio-to-video generation model that can capture multiple modes of the video distribution. We ensure that all the diverse generations are plausible. We do so through a principled multi-modal variational autoencoder framework. We demonstrate its efficacy on the challenging LRW and GRID datasets and demonstrate performance better than the baseline, while having the ability to generate multiple diverse lip synchronized videos.
Abstract（参考訳）: 音声を聴くだけで、会話の顔の視覚を視覚化する能力は、ユニークな人間の能力である。最近、この能力のために解決された多くの作品がある。単一音声入力に基づく様々な発話顔生成を可能にすることで,これらのアプローチと異なる。実際、単一の会話顔を生成する能力があれば、システムは本質的にほぼロボット的になる。対照的に、我々の教師なし確率的オーディオ・ビデオ生成モデルは、単一のオーディオ入力から様々な世代を生成することができる。特に,ビデオ配信の複数のモードをキャプチャ可能な教師なし確率的音声対ビデオ生成モデルを提案する。我々は全ての多様な世代が実現可能であることを保証します原理化されたマルチモーダル変分オートエンコーダフレームワークによって実現している。我々は、LRWとGRIDデータセットにその効果を示し、複数の多様な唇同期ビデオを生成する能力を有しながら、ベースラインよりも優れた性能を示す。

関連論文リスト

Multi-human Interactive Talking Dataset [20.920129008402718]
マルチヒューマン音声ビデオ生成に特化して設計された大規模データセットであるMITを紹介する。得られたデータセットは、12時間の高解像度映像で構成され、それぞれ2〜4人の話者を特徴とする。マルチスピーカーシナリオにおける自然な会話のダイナミクスを捉え、インタラクティブな視覚行動を研究するための豊富なリソースを提供する。
論文参考訳（メタデータ） (2025-08-05T03:54:18Z)
AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation [41.74261260212531]
マルチモーダル・トゥ・音声タスクは、映画製作、ダビング、仮想アバターなど、幅広い応用によって注目を集めている。既存の手法は、音声の了解性、音声とビデオの同期、音声の自然さ、および参照話者との音声類似性の制限に悩まされている。本稿では,アライメントされたマルチモーダル入力から正確な,同期化,自然な音声を生成するマルチモーダルアラインド拡散変換器AlignDiTを提案する。
論文参考訳（メタデータ） (2025-04-29T10:56:24Z)
DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation [50.66658181705527]
本稿では,動的長大映像のオール・アット・オンス生成を可能にするフレームワークであるDAWNを提案する。 DAWNは,(1)潜在動作空間における音声駆動型顔力学生成,(2)音声駆動型頭部ポーズと点滅生成の2つの主要成分から構成される。本手法は, 唇の動きを正確に表現し, 自然なポーズ・瞬き動作を特徴とする実写映像と鮮明な映像を生成する。
論文参考訳（メタデータ） (2024-10-17T16:32:36Z)
DiffTED: One-shot Audio-driven TED Talk Video Generation with Diffusion-based Co-speech Gestures [27.763304632981882]
DiffTEDは、1つの画像から1ショットの音声駆動音声ビデオを生成する新しいアプローチである。我々は拡散モデルを利用して、薄膜スプライン運動モデルのためのキーポイントのシーケンスを生成する。実験により、DiffTEDは多様な音声のジェスチャーによる時間的コヒーレントな会話ビデオを生成することが示された。
論文参考訳（メタデータ） (2024-09-11T22:31:55Z)
Read, Watch and Scream! Sound Generation from Text and Video [23.990569918960315]
本稿では,ReWaSと呼ばれる新しいビデオ・テキスト・音声生成手法を提案する。本手法は,ユーザのプロンプトからキーコンテンツキューを受信しながら,ビデオから音声の構造情報を推定する。音声の生成成分を分離することにより、ユーザが好みに応じて、エネルギー、周囲環境、および一次音源を自由に調整できる、より柔軟なシステムとなる。
論文参考訳（メタデータ） (2024-07-08T01:59:17Z)
CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations [97.75037148056367]
CoVoMixは、ゼロショット、人間ライク、マルチスピーカー、マルチラウンド対話音声生成のための新しいモデルである。対話モデリングと生成の有効性を測定するための総合的なメトリクスセットを考案する。
論文参考訳（メタデータ） (2024-04-10T02:32:58Z)
FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文参考訳（メタデータ） (2024-03-04T09:59:48Z)
Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文参考訳（メタデータ） (2023-01-06T14:16:54Z)
Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild [44.92322575562816]
本稿では,その変動の中で唇と音声列を関連付けることを学習するVAE-GANアーキテクチャを提案する。私たちのジェネレータは、あらゆる人の唇のシーケンスに対して、あらゆる声で音声を合成することを学びます。我々は、アーキテクチャの異なるモジュールの効果を分析するために、多数のアブレーション研究を行っている。
論文参考訳（メタデータ） (2022-09-01T17:50:29Z)
Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文参考訳（メタデータ） (2022-04-18T17:58:04Z)
DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。既存の手法のほとんどは、一人称音声音声生成に重点を置いている。ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文参考訳（メタデータ） (2022-03-15T14:16:49Z)
Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文参考訳（メタデータ） (2021-03-29T09:09:39Z)
Robust One Shot Audio to Video Generation [10.957973845883162]
OneShotA2Vは、音声信号と人の単一の見えないイメージを入力として使用し、任意の長さの会話者のビデオを合成する新しいアプローチです。 OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキングヘッドビデオを生成する。
論文参考訳（メタデータ） (2020-12-14T10:50:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。