論文の概要: Whispered and Lombard Neural Speech Synthesis
- arxiv url: http://arxiv.org/abs/2101.05313v1
- Date: Wed, 13 Jan 2021 19:22:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 08:04:50.885777
- Title: Whispered and Lombard Neural Speech Synthesis
- Title(参考訳): ウィスパードとロンバルドのニューラル音声合成
- Authors: Qiong Hu, Tobias Bleisch, Petko Petkov, Tuomo Raitio, Erik Marchi,
Varun Lakshminarasimhan
- Abstract要約: 合成音声が提示される環境を考慮して、テキストから音声までのシステムが望ましい。
そこで我々は,様々な話し方,すなわち正規語,ロンバルド語,ささやき声を提示し,比較した。
- 参考スコア(独自算出の注目度): 6.117432319400054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is desirable for a text-to-speech system to take into account the
environment where synthetic speech is presented, and provide appropriate
context-dependent output to the user. In this paper, we present and compare
various approaches for generating different speaking styles, namely, normal,
Lombard, and whisper speech, using only limited data. The following systems are
proposed and assessed: 1) Pre-training and fine-tuning a model for each style.
2) Lombard and whisper speech conversion through a signal processing based
approach. 3) Multi-style generation using a single model based on a speaker
verification model. Our mean opinion score and AB preference listening tests
show that 1) we can generate high quality speech through the
pre-training/fine-tuning approach for all speaking styles. 2) Although our
speaker verification (SV) model is not explicitly trained to discriminate
different speaking styles, and no Lombard and whisper voice is used for
pre-training this system, the SV model can be used as a style encoder for
generating different style embeddings as input for the Tacotron system. We also
show that the resulting synthetic Lombard speech has a significant positive
impact on intelligibility gain.
- Abstract(参考訳): 合成音声が提示される環境を考慮し、適切な文脈依存出力をユーザに提供することは、テキスト対音声システムにとって望ましい。
本稿では, 限られたデータのみを用いて, 話し方, 正常, ロンバルド, ささやき声など, 異なる発話スタイルを生成するための様々なアプローチを提示, 比較する。
1) 各スタイルを事前学習し,微調整するシステムを提案する。
2)信号処理に基づくアプローチによるロンバルドとささやき声の変換
3)話者検証モデルに基づく単一モデルを用いたマルチスタイル生成
平均世論スコアとAB選好聴取テストは,(1)すべての話し方に対する事前学習/微調整アプローチにより,高品質な音声を生成できることを示している。
2)我々の話者照合(sv)モデルは,異なる発話スタイルを識別するために明示的に訓練されていないが,このシステムの事前学習にはロンバルドやささやき声は用いられていないが,タコトロンシステムの入力として異なるスタイル埋め込みを生成するためのスタイルエンコーダとして使用できる。
また, 合成ロンバルド音声は, 明瞭度向上に有意な影響を与えることが示された。
関連論文リスト
- Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - Natural language guidance of high-fidelity text-to-speech with synthetic
annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。
次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。
その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文 参考訳(メタデータ) (2024-02-02T21:29:34Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Few Shot Adaptive Normalization Driven Multi-Speaker Speech Synthesis [18.812696623555855]
複数発話音声合成手法 (FSM-SS) を提案する。
FSM-SSは、未確認者の入力テキストと参照音声サンプルから、その人のスタイルで数ショットで音声を生成することができる。
正規化のアフィンパラメータがエネルギーや基本周波数などの韻律的特徴を捉えるのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-12-14T04:37:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。