論文の概要: Using previous acoustic context to improve Text-to-Speech synthesis
- arxiv url: http://arxiv.org/abs/2012.03763v1
- Date: Mon, 7 Dec 2020 15:00:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:30:43.196057
- Title: Using previous acoustic context to improve Text-to-Speech synthesis
- Title(参考訳): 先行音響コンテキストを用いた音声合成の改善
- Authors: Pilar Oplustil-Gallegos and Simon King
- Abstract要約: 我々は,従来の発話音声の埋め込みを生成する音響コンテキストエンコーダを用いて,データのシーケンシャルな性質を活用する。
2つの二次タスクを比較する:発話ペアの順序の予測と、現在の発話音声の埋め込みの予測。
- 参考スコア(独自算出の注目度): 30.885417054452905
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Many speech synthesis datasets, especially those derived from audiobooks,
naturally comprise sequences of utterances. Nevertheless, such data are
commonly treated as individual, unordered utterances both when training a model
and at inference time. This discards important prosodic phenomena above the
utterance level. In this paper, we leverage the sequential nature of the data
using an acoustic context encoder that produces an embedding of the previous
utterance audio. This is input to the decoder in a Tacotron 2 model. The
embedding is also used for a secondary task, providing additional supervision.
We compare two secondary tasks: predicting the ordering of utterance pairs, and
predicting the embedding of the current utterance audio. Results show that the
relation between consecutive utterances is informative: our proposed model
significantly improves naturalness over a Tacotron 2 baseline.
- Abstract(参考訳): 多くの音声合成データセット、特にオーディオブックから派生したものは、自然に発話のシーケンスを構成する。
それでもこれらのデータは、モデルトレーニングと推論時間の両方において、個別の無秩序な発話として扱われる。
これは発話レベル以上の重要な韻律現象を捨てる。
本稿では,先行する発話音声の埋め込みを生成する音響コンテキストエンコーダを用いて,データの逐次的性質を活用する。
これはタコトロン2モデルのデコーダに入力される。
埋め込みは二次的なタスクにも使用され、さらなる監視を提供する。
2つの二次タスクを比較する:発話ペアの順序の予測と、現在の発話音声の埋め込みの予測。
その結果,連続発話間の関係は有益であり,提案モデルはタコトロン2のベースライン上での自然性を大幅に向上させる。
関連論文リスト
- Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - WavThruVec: Latent speech representation as intermediate features for
neural speech synthesis [1.1470070927586016]
WavThruVecは、高次元のWav2Vec 2.0埋め込みを中間音声表現として使用することでボトルネックを解決する2段階アーキテクチャである。
提案モデルは,最先端のニューラルモデルの品質に適合するだけでなく,音声変換やゼロショット合成といったタスクを可能にする有用な特性も提示する。
論文 参考訳(メタデータ) (2022-03-31T10:21:08Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Improving Prosody for Unseen Texts in Speech Synthesis by Utilizing
Linguistic Information and Noisy Data [20.132799566988826]
本稿では,BERTをベースとした精密なフロントエンドと事前学習したFastSpeech2ベースの音響モデルを組み合わせることで,韻律モデリングを改善することを提案する。
実験結果から,細調整されたBERTモデルと事前訓練されたFastSpeech 2の両方が,特に構造的に複雑な文の韻律を改善できることが示唆された。
論文 参考訳(メタデータ) (2021-11-15T05:58:29Z) - Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。
韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文 参考訳(メタデータ) (2021-06-15T18:03:48Z) - Flavored Tacotron: Conditional Learning for Prosodic-linguistic Features [1.6286844497313562]
ストレス音節とピッチアクセントの2つの基本的な韻律的特徴から,Tacotron-2をコンディショニングする戦略を提案する。
本研究では,プリエンコーダとイントラデコーダの段階での協調条件が自然合成音声に結びつくことを示した。
論文 参考訳(メタデータ) (2021-04-08T20:50:15Z) - Incremental Text to Speech for Neural Sequence-to-Sequence Models using
Reinforcement Learning [60.20205278845412]
テキストから音声への現代的なアプローチでは、音声が合成される前に入力文字列全体を処理する必要がある。
このレイテンシは、同時解釈のような時間に敏感なタスクに対するそのようなモデルの適合性を制限します。
エージェントを訓練して意思決定を行うための強化学習に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T11:48:05Z) - End-to-End Adversarial Text-to-Speech [33.01223309795122]
正規化されたテキストや音素から音声をエンドツーエンドで合成することを学ぶ。
提案するジェネレータはフィードフォワードであり,トレーニングと推論の両方に効率的である。
敵対的フィードバックと予測損失を組み合わせた高忠実度オーディオを学習する。
論文 参考訳(メタデータ) (2020-06-05T17:41:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。