論文の概要: Controllable Emphasis with zero data for text-to-speech
- arxiv url: http://arxiv.org/abs/2307.07062v1
- Date: Thu, 13 Jul 2023 21:06:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 15:31:13.276369
- Title: Controllable Emphasis with zero data for text-to-speech
- Title(参考訳): テキスト対音声のためのゼロデータによる制御可能な強調
- Authors: Arnaud Joly, Marco Nicolis, Ekaterina Peterova, Alessandro Lombardi,
Ammar Abbas, Arent van Korlaar, Aman Hussain, Parul Sharma, Alexis Moinet,
Mateusz Lajszczak, Penny Karanasou, Antonio Bonafonte, Thomas Drugman, Elena
Sokolova
- Abstract要約: 強調音声を簡易かつ効果的に処理する方法は、強調単語の予測持続時間を増加させることである。
これは自然度を7.3%向上させるスペクトログラム修正手法よりもはるかに優れていることを示し、基準女性のen-US音声に対して、文章中の強調された単語の正しさを40%精度で識別する。
- 参考スコア(独自算出の注目度): 57.12383531339368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a scalable method to produce high quality emphasis for
text-to-speech (TTS) that does not require recordings or annotations. Many TTS
models include a phoneme duration model. A simple but effective method to
achieve emphasized speech consists in increasing the predicted duration of the
emphasised word. We show that this is significantly better than spectrogram
modification techniques improving naturalness by $7.3\%$ and correct testers'
identification of the emphasized word in a sentence by $40\%$ on a reference
female en-US voice. We show that this technique significantly closes the gap to
methods that require explicit recordings. The method proved to be scalable and
preferred in all four languages tested (English, Spanish, Italian, German), for
different voices and multiple speaking styles.
- Abstract(参考訳): 録音やアノテーションを必要としないテキスト音声(TTS)の高品質な強調表示を実現するためのスケーラブルな手法を提案する。
多くのTSモデルは音素持続時間モデルを含む。
強調音声を簡易かつ効果的に処理する方法は、強調単語の予測持続時間を増加させることである。
これは、自然性を改善するスペクトログラム修正技術よりも著しく優れていることを示し、また、強調された文の強調された単語の識別を、参照する女性音声に対して40\%$で訂正する。
この手法は明示的な記録を必要とする手法とのギャップを著しく埋めることを示す。
この方法はスケーラブルで、4つの言語(英語、スペイン語、イタリア語、ドイツ語)で異なる声と複数の話し方でテストされた。
関連論文リスト
- Natural language guidance of high-fidelity text-to-speech with synthetic
annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。
次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。
その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文 参考訳(メタデータ) (2024-02-02T21:29:34Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:26:56Z) - Distribution augmentation for low-resource expressive text-to-speech [18.553812159109253]
本稿では,TTS(text-to-speech)のための新しいデータ拡張手法を提案する。
追加データを必要とすることなく、新たな(テキスト、オーディオ)トレーニング例を生成することができる。
論文 参考訳(メタデータ) (2022-02-13T21:19:31Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。