論文の概要: An Exhaustive Evaluation of TTS- and VC-based Data Augmentation for ASR
- arxiv url: http://arxiv.org/abs/2503.08954v1
- Date: Tue, 11 Mar 2025 23:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:35:33.915960
- Title: An Exhaustive Evaluation of TTS- and VC-based Data Augmentation for ASR
- Title(参考訳): ASRのためのTSおよびVCに基づくデータ拡張の実証評価
- Authors: Sewade Ogun, Vincent Colotte, Emmanuel Vincent,
- Abstract要約: 近年,テキスト音声変換 (TTS) や音声変換 (VC) による合成データによる自動音声認識システムの訓練データの増加が注目されている。
我々は,最近提案されたフローベースTS/VCモデルを活用し,複数のASRモデルにより達成された単語誤り率(WER)に対する様々な音声属性の増大の影響を評価する。
- 参考スコア(独自算出の注目度): 12.197936305117407
- License:
- Abstract: Augmenting the training data of automatic speech recognition (ASR) systems with synthetic data generated by text-to-speech (TTS) or voice conversion (VC) has gained popularity in recent years. Several works have demonstrated improvements in ASR performance using this augmentation approach. However, because of the lower diversity of synthetic speech, naively combining synthetic and real data often does not yield the best results. In this work, we leverage recently proposed flow-based TTS/VC models allowing greater speech diversity, and assess the respective impact of augmenting various speech attributes on the word error rate (WER) achieved by several ASR models. Pitch augmentation and VC-based speaker augmentation are found to be ineffective in our setup. Jointly augmenting all other attributes reduces the WER of a Conformer-Transducer model by 11\% relative on Common Voice and by up to 35\% relative on LibriSpeech compared to training on real data only.
- Abstract(参考訳): 近年,テキスト音声変換 (TTS) や音声変換 (VC) による合成データを用いた自動音声認識 (ASR) システムの訓練データの増加が注目されている。
いくつかの研究が、この拡張アプローチによるASR性能の改善を実証している。
しかし, 合成音声の多様性が低いため, 合成データと実データを組み合わせることで, 最良の結果が得られないことが多い。
本研究では,最近提案されたフローベースTS/VCモデルを利用して,音声の多様性を高めるとともに,複数のASRモデルによって達成された単語誤り率(WER)に対する様々な音声属性の増大の影響を評価する。
ピッチ拡大とVCベースの話者増強は、我々の設定では効果がないことが判明した。
その他の属性を併用することにより、Conformer-TransducerモデルのWERをCommon Voiceで11倍、LibriSpeechで35倍まで削減できる。
関連論文リスト
- Enhancing Low-Resource ASR through Versatile TTS: Bridging the Data Gap [46.607944227556]
テキスト音声合成(TTS)モデルを用いた自動音声認識(ASR)の性能向上のための費用対効果と実用的なアプローチを提案する。
前例のないほど多種多様な低リソースデータセットの実験は、一貫性と実質的なパフォーマンス改善を示している。
本研究では,テキストの多様性,話者の多様性,合成データの量などの要因について検討し,本研究で初めてテキストの多様性について検討した。
論文 参考訳(メタデータ) (2024-10-22T06:25:16Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Improving Code-Switching and Named Entity Recognition in ASR with Speech
Editing based Data Augmentation [22.38340990398735]
テキストベースの音声編集モデルを適用して,新たなデータ拡張手法を提案する。
コードスイッチングとNERタスクの実験結果から,提案手法は音声スプライシングとニューラルTSに基づくデータ拡張システムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-14T15:50:13Z) - Towards Selection of Text-to-speech Data to Augment ASR Training [20.115236045164355]
ニューラルネットワークをトレーニングして、合成データの実際の音声との類似性を計測する。
音声認識性能を高めるためには, 実音声とはかなりの相似性を持つ合成サンプルを組み込むことが重要である。
論文 参考訳(メタデータ) (2023-05-30T17:24:28Z) - Cross-Speaker Emotion Transfer for Low-Resource Text-to-Speech Using
Non-Parallel Voice Conversion with Pitch-Shift Data Augmentation [19.807274303199755]
本稿では,ピッチシフトとVC技術を組み合わせた新しいデータ拡張手法を提案する。
ピッチシフトデータ拡張は様々なピッチダイナミクスのカバレッジを可能にするため、VCモデルとTSモデルのトレーニングを大幅に安定化させる。
提案手法を用いたFastSpeech 2 ベースの感情的 TTS システムでは,従来の方法に比べて自然性や感情的類似性が向上した。
論文 参考訳(メタデータ) (2022-04-21T11:03:37Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。