論文の概要: AudioVisual Speech Synthesis: A brief literature review
- arxiv url: http://arxiv.org/abs/2103.03927v1
- Date: Thu, 18 Feb 2021 19:13:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 13:22:24.032868
- Title: AudioVisual Speech Synthesis: A brief literature review
- Title(参考訳): オーディオビジュアル音声合成:簡単な文献レビュー
- Authors: Efthymios Georgiou, Athanasios Katsamanis
- Abstract要約: 本稿では,音声音声合成の課題について考察する。これは,テキストを入力とするアニメーション音声ヘッドの生成の問題である。
ttsでは、テキストを中間音響表現にマッピングするために使用されるモデルを示す。
対話型アニメーション問題に対しては,人間の顔や擬人化図形を創り出すかに基づいてアプローチを分類する。
- 参考スコア(独自算出の注目度): 4.148192541851448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This brief literature review studies the problem of audiovisual speech
synthesis, which is the problem of generating an animated talking head given a
text as input. Due to the high complexity of this problem, we approach it as
the composition of two problems. Specifically, that of Text-to-Speech (TTS)
synthesis as well as the voice-driven talking head animation. For TTS, we
present models that are used to map text to intermediate acoustic
representations, e.g. mel-spectrograms, as well as models that generate voice
signals conditioned on these intermediate representations, i.e vocoders. For
the talking-head animation problem, we categorize approaches based on whether
they produce human faces or anthropomorphic figures. An attempt is also made to
discuss the importance of the choice of facial models in the second case.
Throughout the review, we briefly describe the most important work in
audiovisual speech synthesis, trying to highlight the advantages and
disadvantages of the various approaches.
- Abstract(参考訳): 本総説では,テキストを入力とした音声合成の問題である音声合成の問題について概説する。
この問題の複雑さが高いため、我々は2つの問題の合成としてアプローチする。
具体的には、テキスト音声合成(TTS)と音声駆動音声ヘッドアニメーションを併用する。
ttsの場合、例えば、テキストを中間音響表現にマッピングするために使用されるモデルを示す。
メル・スペクトログラム、およびこれらの中間表現、すなわちボコーダに条件付き音声信号を生成するモデル。
対話型アニメーション問題に対しては,人間の顔や擬人化図形を創り出すかに基づいてアプローチを分類する。
また,第2症例における顔モデルの選択の重要性についても検討した。
本稿では,音声視覚音声合成における最も重要な課題について概説し,様々なアプローチの利点とデメリットを強調した。
関連論文リスト
- Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。
NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。
モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文 参考訳(メタデータ) (2023-12-11T18:41:55Z) - Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。
提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文 参考訳(メタデータ) (2023-06-28T08:22:53Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Joint Audio-Text Model for Expressive Speech-Driven 3D Facial Animation [46.8780140220063]
本稿では,表情駆動型3次元顔画像の文脈情報を取得するための共同音声テキストモデルを提案する。
我々の仮説は、音声と強く相関しない上面表現のバリエーションを曖昧にすることができるというものである。
音声と音声の同期を保ちながら現実的な表情を合成できることを示す。
論文 参考訳(メタデータ) (2021-12-04T01:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。