論文の概要: Speaker Conditional WaveRNN: Towards Universal Neural Vocoder for Unseen
Speaker and Recording Conditions
- arxiv url: http://arxiv.org/abs/2008.05289v1
- Date: Sun, 9 Aug 2020 13:54:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 04:57:27.098818
- Title: Speaker Conditional WaveRNN: Towards Universal Neural Vocoder for Unseen
Speaker and Recording Conditions
- Title(参考訳): 話者条件波RNN:未知話者と記録条件のためのユニバーサルニューラルボコーダを目指して
- Authors: Dipjyoti Paul, Yannis Pantazis, Yannis Stylianou
- Abstract要約: 従来のニューラルボコーダは、トレーニングスピーカーに調整され、目に見えない話者に対する一般化能力に乏しい。
我々は、話者条件付きWaveRNN(SC-WaveRNN)と呼ばれるWaveRNNの変種を提案する。
標準のWaveRNNとは対照的に、SC-WaveRNNは話者埋め込みという形で追加情報を利用する。
- 参考スコア(独自算出の注目度): 19.691323658303435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in deep learning led to human-level performance in
single-speaker speech synthesis. However, there are still limitations in terms
of speech quality when generalizing those systems into multiple-speaker models
especially for unseen speakers and unseen recording qualities. For instance,
conventional neural vocoders are adjusted to the training speaker and have poor
generalization capabilities to unseen speakers. In this work, we propose a
variant of WaveRNN, referred to as speaker conditional WaveRNN (SC-WaveRNN). We
target towards the development of an efficient universal vocoder even for
unseen speakers and recording conditions. In contrast to standard WaveRNN,
SC-WaveRNN exploits additional information given in the form of speaker
embeddings. Using publicly-available data for training, SC-WaveRNN achieves
significantly better performance over baseline WaveRNN on both subjective and
objective metrics. In MOS, SC-WaveRNN achieves an improvement of about 23% for
seen speaker and seen recording condition and up to 95% for unseen speaker and
unseen condition. Finally, we extend our work by implementing a multi-speaker
text-to-speech (TTS) synthesis similar to zero-shot speaker adaptation. In
terms of performance, our system has been preferred over the baseline TTS
system by 60% over 15.5% and by 60.9% over 32.6%, for seen and unseen speakers,
respectively.
- Abstract(参考訳): ディープラーニングの最近の進歩は、単一話者音声合成における人間レベルのパフォーマンスにつながった。
しかし、これらのシステムを複数の話者モデルに一般化する際には、音声品質の面ではまだ制限がある。
例えば、従来のニューラルボコーダはトレーニングスピーカーに調整され、目に見えない話者に一般化能力が不足している。
本研究では,話者条件付きWaveRNN(SC-WaveRNN)と呼ばれるWaveRNNの変種を提案する。
我々は,未知の話者や記録条件であっても,効率的なユニバーサルヴォコーダの開発を目指している。
標準のWaveRNNとは対照的に、SC-WaveRNNは話者埋め込みという形で追加情報を利用する。
SC-WaveRNNは、トレーニングのために公開データを使用することで、主観的および客観的なメトリクスのベースラインであるWaveRNNよりも大幅にパフォーマンスが向上する。
MOSでは、SC-WaveRNNは、可視話者の約23%、可視話者の最大95%の改善を実現している。
最後に,ゼロショット話者適応に類似したマルチ話者テキスト音声合成(tts)を実装して作業を拡大する。
性能面では、我々のシステムはベースラインのTSシステムよりも15.5%以上60.9%以上32.6%以上60.9%より好まれている。
関連論文リスト
- Analyzing And Improving Neural Speaker Embeddings for ASR [54.30093015525726]
本稿では,コンバータをベースとしたハイブリッドHMM ASRシステムに,ニューラルスピーカーの埋め込みを統合するための取り組みについて述べる。
話者埋め込みを用いたコンフォーマーベースハイブリッドASRシステムは, SWB 300hでのトレーニングにより, Hub5'00 と Hub5'01 で 9.0% WER を達成する。
論文 参考訳(メタデータ) (2023-01-11T16:56:03Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Speech-enhanced and Noise-aware Networks for Robust Speech Recognition [25.279902171523233]
音声強調と音声認識を協調的に最適化するために,2つのカスケードニューラルネットワーク構造に基づく雑音認識学習フレームワークを提案する。
提案した2つのシステムは,オーロラ4タスクにおいてそれぞれ3.90%と3.55%の単語誤り率(WER)を達成する。
CNN-TDNNF ベースのシステムは,Bigram と Trigram の言語モデルを用いた復号化システムと比較して,それぞれ 15.20% と 33.53% の WER 削減を実現している。
論文 参考訳(メタデータ) (2022-03-25T15:04:51Z) - ECAPA-TDNN for Multi-speaker Text-to-speech Synthesis [13.676243543864347]
本稿では,高品質な音声を生成できるエンドツーエンド手法を提案する。
この方法は、最先端のTDNNベースのECAPA-TDNNに基づく話者エンコーダ、FastSpeech2ベースのシンセサイザー、HiFi-GANボコーダの3つの別々に訓練されたコンポーネントで構成されている。
論文 参考訳(メタデータ) (2022-03-20T07:04:26Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - SVSNet: An End-to-end Speaker Voice Similarity Assessment Model [61.3813595968834]
本研究では、自然言語と合成音声の話者音声類似性を評価するために、最初のエンドツーエンドニューラルネットワークモデルであるSVSNetを提案する。
Voice Conversion Challenge 2018と2020の実験結果は、SVSNetがよく知られたベースラインシステムより優れていることを示している。
論文 参考訳(メタデータ) (2021-07-20T10:19:46Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - Streaming Multi-speaker ASR with RNN-T [8.701566919381223]
本研究は、リカレントニューラルネットワークトランスデューサ(RNN-T)に基づくマルチスピーカ音声認識に焦点を当てている。
RNN-Tの高レベル話者追跡能力を高めるために,前者における話者順ラベルの分離が重要であることを示す。
我々の最良モデルは、前述した最先端非ストリーミングモデル(10.3%)と競合する2話者Libriデータ上で10.2%のWERを達成する。
論文 参考訳(メタデータ) (2020-11-23T19:10:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。