論文の概要: Text-to-speech for the hearing impaired
- arxiv url: http://arxiv.org/abs/2012.02174v2
- Date: Mon, 22 Mar 2021 12:33:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 14:35:38.494712
- Title: Text-to-speech for the hearing impaired
- Title(参考訳): 聴覚障害者のためのテキスト音声合成
- Authors: Josef Schlittenlacher, Thomas Baer
- Abstract要約: テキスト音声(TTS)システムは、受信端で補正するのではなく、音源の聴覚損失を補うことができる。
本研究では,高分解能時間,周波数,レベルにおいて,音質を正常な知覚に復元するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-speech (TTS) systems offer the opportunity to compensate for a
hearing loss at the source rather than correcting for it at the receiving end.
This removes limitations such as time constraints for algorithms that amplify a
sound in a hearing aid and can lead to higher speech quality. We propose an
algorithm that restores loudness to normal perception at a high resolution in
time, frequency and level, and embed it in a TTS system that uses Tacotron2 and
WaveGlow to produce individually amplified speech. Subjective evaluations of
speech quality showed that the proposed algorithm led to high-quality audio
with sound quality similar to original or linearly amplified speech but
considerably higher speech intelligibility in noise. Transfer learning led to a
quick adaptation of the produced spectra from original speech to individually
amplified speech, resulted in high speech quality and intelligibility, and thus
gives us a way to train an individual TTS system efficiently.
- Abstract(参考訳): Text-to-Speech (TTS) システムは、受信端で補正するのではなく、ソースで聴覚障害を補う機会を提供する。
これにより、補聴器内の音を増幅し、高い音声品質につながるアルゴリズムの時間制約などの制限が取り除かれる。
本研究では,時間,周波数,レベルの高分解能で音質を正常に復元するアルゴリズムを提案し,それをTacotron2とWaveGlowを用いて個別に増幅した音声を生成するTSシステムに組み込む。
音声品質の主観的評価により,提案手法は,原音声や線形増幅音声に類似した音質を持つ高音質音声に導かれるが,雑音の明瞭性は極めて高いことがわかった。
トランスファー学習は,生成したスペクトルを原音声から個々に増幅した音声に迅速に適応させ,高い音声品質と理解性を実現し,個々のttsシステムを効率的に学習する手段を得ることができた。
関連論文リスト
- An Investigation of Noise Robustness for Flow-Matching-Based Zero-Shot TTS [43.84833978193758]
ゼロショット音声合成システム(TTS)は、任意の話者の声を短い音声プロンプトから合成することができる。
生成した音声の品質は、音声プロンプトがノイズを含むと著しく劣化する。
本稿では,ノイズの多い音声プロンプトから発生する音声の質を高めるための様々な手法について検討する。
論文 参考訳(メタデータ) (2024-06-09T08:51:50Z) - Noise-robust zero-shot text-to-speech synthesis conditioned on
self-supervised speech-representation model with adapters [47.75276947690528]
ゼロショットテキスト音声(TTS)法は,話者特性を極めて正確に再現することができる。
しかし、この手法は、参照音声が雑音を含む場合、音声合成品質の劣化に悩まされる。
本稿では,ノイズロストゼロショットTS法を提案する。
論文 参考訳(メタデータ) (2024-01-10T12:21:21Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - A$^3$T: Alignment-Aware Acoustic and Text Pretraining for Speech
Synthesis and Editing [31.666920933058144]
本稿では,テキスト入力と音響テキストアライメントによるマスク付き音響信号の再構成を行うアライメント・アウェア・アウェア・アコースティック・テキスト・プレトレーニング(A$3$T)を提案する。
実験では、A$3$Tは、音声編集におけるSOTAモデルよりも優れており、外部話者検証モデルなしでは、マルチスピーカ音声合成を改善する。
論文 参考訳(メタデータ) (2022-03-18T01:36:25Z) - Voice Filter: Few-shot text-to-speech speaker adaptation using voice
conversion as a post-processing module [16.369219400819134]
最先端の音声合成システム(TTS)は、高品質な合成音声を生成するために、数時間の音声データを記録する必要がある。
トレーニングデータの量を減らす場合、標準のTSモデルは音声品質と知性劣化に悩まされる。
本稿では,ターゲット話者からの音声を1分以内で処理するVoice Filterという,非常に低リソースなTTS手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T16:12:21Z) - Optimization of a Real-Time Wavelet-Based Algorithm for Improving Speech
Intelligibility [1.0554048699217666]
離散時間音声信号は、マルチレベル離散ウェーブレット変換を介して周波数サブバンドに分割される。
信号エネルギーを一定に保ちながらサブバンドゲインを調整する。
種々の背景干渉および模擬聴力損失条件下での音声の可聴性を向上させる。
論文 参考訳(メタデータ) (2022-02-05T13:03:57Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。