論文の概要: Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism
- arxiv url: http://arxiv.org/abs/2312.06613v1
- Date: Mon, 11 Dec 2023 18:41:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 14:35:00.025427
- Title: Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism
- Title(参考訳): ニューラルテキストから調音音声:聴覚とフォトリアリズムを両立させたディープテキストから聴覚音声合成
- Authors: Georgios Milis, Panagiotis P. Filntisis, Anastasios Roussos, Petros
Maragos
- Abstract要約: 会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。
NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。
モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
- 参考スコア(独自算出の注目度): 26.180371869137257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in deep learning for sequential data have given rise to fast
and powerful models that produce realistic videos of talking humans. The state
of the art in talking face generation focuses mainly on lip-syncing, being
conditioned on audio clips. However, having the ability to synthesize talking
humans from text transcriptions rather than audio is particularly beneficial
for many applications and is expected to receive more and more attention,
following the recent breakthroughs in large language models. For that, most
methods implement a cascaded 2-stage architecture of a text-to-speech module
followed by an audio-driven talking face generator, but this ignores the highly
complex interplay between audio and visual streams that occurs during speaking.
In this paper, we propose the first, to the best of our knowledge, text-driven
audiovisual speech synthesizer that uses Transformers and does not follow a
cascaded approach. Our method, which we call NEUral Text to ARticulate Talk
(NEUTART), is a talking face generator that uses a joint audiovisual feature
space, as well as speech-informed 3D facial reconstructions and a lip-reading
loss for visual supervision. The proposed model produces photorealistic talking
face videos with human-like articulation and well-synced audiovisual streams.
Our experiments on audiovisual datasets as well as in-the-wild videos reveal
state-of-the-art generation quality both in terms of objective metrics and
human evaluation.
- Abstract(参考訳): シーケンシャルデータに対するディープラーニングの最近の進歩は、人間の会話のリアルなビデオを生成する高速で強力なモデルを生み出している。
トーキング・フェイス・ジェネレーションにおける技術の現状は、主にリップシンキングに焦点を合わせ、音声クリップに条件付けされている。
しかし、音声ではなくテキストの書き起こしから人間を合成する能力は、多くのアプリケーションにとって特に有益であり、近年の大規模言語モデルのブレークスルーに続き、より多くの注目を集めることが期待されている。
そのため、ほとんどの手法では音声合成モジュールのカスケード化された2段階アーキテクチャを実装し、その後に音声駆動の会話顔生成器が続くが、これは音声と視覚ストリームの間の非常に複雑な相互作用を無視している。
本稿では,トランスフォーマを用いたテキスト駆動音声合成システムについて,ケースドアプローチに従わず,私たちの知識を最大限活用するために,初めて提案する。
NEUral Text to ARticulate Talk (NEUTART) と呼ばれるこの手法は、音声による3D顔の再構成や、視覚的監視のための唇読みの喪失など、関節型音声視覚特徴空間を用いた話し顔生成装置である。
提案モデルでは,人間のような調音と映像ストリームを同期させた,フォトリアリスティックな対話型顔ビデオを生成する。
本実験では,映像や映像の映像から,客観的な計測値と人的評価値の両面から,最先端の音質が明らかとなった。
関連論文リスト
- JEAN: Joint Expression and Audio-guided NeRF-based Talking Face Generation [24.2065254076207]
共同表現と音声誘導による発話顔生成のための新しい手法を提案する。
提案手法は,高忠実度音声映像を合成し,最先端の表情伝達を実現する。
論文 参考訳(メタデータ) (2024-09-18T17:18:13Z) - Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。
提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文 参考訳(メタデータ) (2023-06-28T08:22:53Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - Joint Audio-Text Model for Expressive Speech-Driven 3D Facial Animation [46.8780140220063]
本稿では,表情駆動型3次元顔画像の文脈情報を取得するための共同音声テキストモデルを提案する。
我々の仮説は、音声と強く相関しない上面表現のバリエーションを曖昧にすることができるというものである。
音声と音声の同期を保ちながら現実的な表情を合成できることを示す。
論文 参考訳(メタデータ) (2021-12-04T01:37:22Z) - Write-a-speaker: Text-based Emotional and Rhythmic Talking-head
Generation [28.157431757281692]
本研究では,高忠実度表情と頭部動作を合成するテキストベーストーキングヘッドビデオ生成フレームワークを提案する。
本フレームワークは,話者に依存しないステージと話者固有のステージから構成される。
本アルゴリズムは,様々な表情や頭部の動きを含む高品質なフォトリアリスティックなトーキングヘッドビデオを実現する。
論文 参考訳(メタデータ) (2021-04-16T09:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。