論文の概要: Comparing the Benefit of Synthetic Training Data for Various Automatic
Speech Recognition Architectures
- arxiv url: http://arxiv.org/abs/2104.05379v1
- Date: Mon, 12 Apr 2021 11:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:35:56.699207
- Title: Comparing the Benefit of Synthetic Training Data for Various Automatic
Speech Recognition Architectures
- Title(参考訳): 各種自動音声認識アーキテクチャにおける合成学習データの有用性の比較
- Authors: Nick Rossenbach, Mohammad Zeineldeen, Benedikt Hilmes, Ralf
Schl\"uter, Hermann Ney
- Abstract要約: TTSシステムにおけるデータプリプロセッシングにおける沈黙補正の新たなアプローチを提案する。
最終単語誤り率は3.3%/10.0%で、クリーン/ノイズテストセット上でハイブリッドシステムを実現する。
- 参考スコア(独自算出の注目度): 44.803590841664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent publications on automatic-speech-recognition (ASR) have a strong focus
on attention encoder-decoder (AED) architectures which work well for large
datasets, but tend to overfit when applied in low resource scenarios. One
solution to tackle this issue is to generate synthetic data with a trained
text-to-speech system (TTS) if additional text is available. This was
successfully applied in many publications with AED systems. We present a novel
approach of silence correction in the data pre-processing for TTS systems which
increases the robustness when training on corpora targeted for ASR
applications. In this work we do not only show the successful application of
synthetic data for AED systems, but also test the same method on a highly
optimized state-of-the-art Hybrid ASR system and a competitive monophone based
system using connectionist-temporal-classification (CTC). We show that for the
later systems the addition of synthetic data only has a minor effect, but they
still outperform the AED systems by a large margin on LibriSpeech-100h. We
achieve a final word-error-rate of 3.3%/10.0% with a Hybrid system on the
clean/noisy test-sets, surpassing any previous state-of-the-art systems that do
not include unlabeled audio data.
- Abstract(参考訳): 最近のASR(Automatic-Speech-recognition)の出版物は、大規模なデータセットでうまく機能するが、低リソースシナリオに適用すると過度に適合する傾向にある注意エンコーダ・デコーダ(AED)アーキテクチャに強い焦点をあてている。
この問題を解決する一つの解決策は、追加のテキストが利用可能であれば、訓練されたテキスト音声合成システム(TTS)で合成データを生成することである。
これはAEDシステムを使った多くの出版物で成功した。
本稿では,asrアプリケーションを対象としたコーパス学習におけるロバスト性を高めるttsシステムのデータ前処理における無音補正手法を提案する。
本研究では,AEDシステムへの合成データの適用が成功しただけでなく,高度に最適化された最先端のハイブリッドASRシステムと,コネクショニスト時間分類(CTC)を用いた競合モノフォンベースシステム上で,同じ手法をテストする。
後続のシステムでは、合成データの追加は小さな効果しか与えないが、それでもLibriSpeech-100hの差を大きく上回っている。
最終単語誤り率は3.3%/10.0%で、クリーン/ノイズテストセット上のハイブリッドシステムでは、ラベルなしのオーディオデータを含まない以前の最先端システムを上回る。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - On the Effect of Purely Synthetic Training Data for Different Automatic Speech Recognition Architectures [19.823015917720284]
音声認識学習における合成データの有用性について検討する。
我々は、元のトレーニングデータを再生し、合成データのみに基づいてASRシステムを訓練する。
トレーニングスコアが過度な適合を示す場合であっても,TTSモデルの一般化は良好であることを示す。
論文 参考訳(メタデータ) (2024-07-25T12:44:45Z) - On the Relevance of Phoneme Duration Variability of Synthesized Training
Data for Automatic Speech Recognition [0.552480439325792]
合成データの時間構造とASRトレーニングとの関係に着目した。
本研究では, 合成データ品質の劣化が, 非自己回帰性TSの持続時間モデルにどの程度影響されているかを示す。
簡単なアルゴリズムを用いて,TTSシステムの音素持続時間分布を実時間に近づける。
論文 参考訳(メタデータ) (2023-10-12T08:45:21Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Wider or Deeper Neural Network Architecture for Acoustic Scene
Classification with Mismatched Recording Devices [59.86658316440461]
音響シーン分類(ASC)のためのロバストで低複雑性なシステムを提案する。
本稿では,まず,新しい入出力型ネットワークアーキテクチャを設計し,不一致な記録装置問題に対処する,ASCベースラインシステムを構築する。
さらなる性能向上を図りながら、低複雑性モデルを満たすために、多重スペクトルのアンサンブルとチャネル縮小の2つの手法を適用した。
論文 参考訳(メタデータ) (2022-03-23T10:27:41Z) - Conformer-based Hybrid ASR System for Switchboard Dataset [99.88988282353206]
本稿では,競争力のあるコンバータベースハイブリッドモデルトレーニングレシピを提示し,評価する。
本研究は,単語誤り率の向上と学習速度向上のための異なる訓練側面と手法について検討する。
我々はSwitchboard 300hデータセットで実験を行い、コンバータベースのハイブリッドモデルは競争力のある結果を得る。
論文 参考訳(メタデータ) (2021-11-05T12:03:18Z) - SynthASR: Unlocking Synthetic Data for Speech Recognition [15.292920497489925]
そこで本研究では,ASRモデルトレーニングのためのデータが少ない,あるいは取得が困難なアプリケーションにおいて,合成音声をASRトレーニング(SynthASR)に活用することを提案する。
薬物名認識のための新しい応用のための社内データセットを用いて実験を行ったところ、合成音声を用いたASR RNN-Tモデルのトレーニングにより、新しいアプリケーションの認識性能が65%以上向上した。
論文 参考訳(メタデータ) (2021-06-14T23:26:44Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。