論文の概要: Synthesizing Speech Test Cases with Text-to-Speech? An Empirical Study
on the False Alarms in Automated Speech Recognition Testing
- arxiv url: http://arxiv.org/abs/2305.17445v3
- Date: Wed, 19 Jul 2023 01:17:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 05:16:32.997341
- Title: Synthesizing Speech Test Cases with Text-to-Speech? An Empirical Study
on the False Alarms in Automated Speech Recognition Testing
- Title(参考訳): テキスト音声による音声検査症例の合成
自動音声認識テストにおける偽アラームの実証的研究
- Authors: Julia Kaiwen Lau, Kelvin Kai Wen Kong, Julian Hao Yong, Per Hoong Tan,
Zhou Yang, Zi Qian Yong, Joshua Chern Wey Low, Chun Yong Chong, Mei Kuan Lim,
and David Lo
- Abstract要約: 4つのTSシステムから生成された合成音声と2つのデータセットから得られた人間の音声を用いて、一般的な5つのASRシステムにおける誤警報の発生について検討した。
以上の結果から,Deepspeechでは誤報が最少であり,Wav2vec2では誤報が最多であることが判明した。
TTSシステムの中で、Google TTSは最小数の偽アラーム(17%)を生成し、Espeak TTSは4つのTSシステムの中で最も多くの偽アラーム(32%)を生成する。
- 参考スコア(独自算出の注目度): 8.01401335864383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have proposed the use of Text-To-Speech (TTS) systems to
automatically synthesise speech test cases on a scale and uncover a large
number of failures in ASR systems. However, the failures uncovered by synthetic
test cases may not reflect the actual performance of an ASR system when it
transcribes human audio, which we refer to as false alarms. Given a failed test
case synthesised from TTS systems, which consists of TTS-generated audio and
the corresponding ground truth text, we feed the human audio stating the same
text to an ASR system. If human audio can be correctly transcribed, an instance
of a false alarm is detected. In this study, we investigate false alarm
occurrences in five popular ASR systems using synthetic audio generated from
four TTS systems and human audio obtained from two commonly used datasets. Our
results show that the least number of false alarms is identified when testing
Deepspeech, and the number of false alarms is the highest when testing
Wav2vec2. On average, false alarm rates range from 21% to 34% in all five ASR
systems. Among the TTS systems used, Google TTS produces the least number of
false alarms (17%), and Espeak TTS produces the highest number of false alarms
(32%) among the four TTS systems. Additionally, we build a false alarm
estimator that flags potential false alarms, which achieves promising results:
a precision of 98.3%, a recall of 96.4%, an accuracy of 98.5%, and an F1 score
of 97.3%. Our study provides insight into the appropriate selection of TTS
systems to generate high-quality speech to test ASR systems. Additionally, a
false alarm estimator can be a way to minimise the impact of false alarms and
help developers choose suitable test inputs when evaluating ASR systems. The
source code used in this paper is publicly available on GitHub at
https://github.com/julianyonghao/FAinASRtest.
- Abstract(参考訳): 近年,テキスト音声合成システム(TTS, Text-To-Speech)による音声テストケースの自動合成と,多数のASRシステム障害の発見が提案されている。
しかし、人工的なテストケースによって発見された失敗は、人間の音声を転写するASRシステムの実際の性能を反映していない可能性がある。
TTS生成音声と対応する接地真理テキストからなるTSシステムから合成されたテストケースが失敗した場合、我々は、同じテキストを記述した人間の音声をASRシステムに供給する。
人間の音声が正しく転写された場合、誤報の事例を検出する。
本研究では、4つのTSシステムから生成された合成音声と2つの一般的なデータセットから得られた人間の音声を用いて、一般的なASRシステム5種類の誤警報の発生を調査した。
以上の結果から,deepspeechテストでは最小数の偽アラームが同定され,wav2vec2テストでは偽アラームが最多であった。
平均すると、偽アラーム率は5つのasrシステムで21%から34%である。
TTSシステムの中で、Google TTSは最小数の偽アラーム(17%)を生成し、Espeak TTSは4つのTSシステムの中で最も多くの偽アラーム(32%)を生成する。
さらに、潜在的な誤報を警告する誤報推定器を構築し、98.3%の精度、96.4%のリコール、98.5%の精度、97.3%のf1スコアの有望な結果を得る。
本研究では,ATRシステムをテストするための高品質な音声を生成するため,TSシステムの適切な選択に関する知見を提供する。
さらに、偽アラーム推定器は、誤アラームの影響を最小限に抑え、開発者がASRシステムを評価する際に適切なテストインプットを選択するのに役立つ。
この論文で使用されたソースコードはGitHubでhttps://github.com/julianyonghao/FAinASRtest.comで公開されている。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - ASTER: Automatic Speech Recognition System Accessibility Testing for
Stutterers [25.466850759460364]
ASRシステムのアクセシビリティを自動テストする技術であるASTERを提案する。
ASTERは5種類のスタブリングを注入することで有効なテストケースを生成する。
評価されたASRシステムでは,単語誤り率,一致誤り率,単語情報損失を著しく増大させる。
論文 参考訳(メタデータ) (2023-08-30T03:46:52Z) - Making More of Little Data: Improving Low-Resource Automatic Speech
Recognition Using Data Augmentation [20.45373308116162]
この研究は4つのタイプ学的に多様なマイノリティ言語または言語変種(西ゲルマン語:Gronings, West-Frisian, Malayo-Polynesian: Besemah, Nasal)に焦点を当てている。
これら4言語すべてに対して、利用可能な人書きデータでトレーニングされたASRシステムを転写に使用し、元のデータと組み合わせて新しいASRシステムを訓練する自己学習システムの使用について検討する。
自己学習アプローチを用いることで、24分でトレーニングされたASRシステムと比較して、改善された性能(相対的なWER削減率)が20.5%に達することが判明した。
論文 参考訳(メタデータ) (2023-05-18T13:20:38Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Unsupervised Data Selection for TTS: Using Arabic Broadcast News as a
Case Study [44.07589545984369]
本稿では、自動データ選択と事前学習/微調整戦略を含む、TS構築のための完全に教師なしの手法を提案する。
我々は,データの選択を慎重に行うことで,TSシステムの効率が向上することを示す。
評価の結果,CERは3.9%,CERは1.3%であった。
論文 参考訳(メタデータ) (2023-01-22T10:41:58Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - When Is TTS Augmentation Through a Pivot Language Useful? [26.084140117526488]
我々は,高出力のピボット言語のための訓練されたTSシステムを用いて,ターゲット言語からテキストを実行することによって,合成音声を生成することを提案する。
数千の合成TSテキスト音声ペアを使用し、実際のデータを複製して最適な結果を得る。
これらの発見の応用は、2つの低リソース言語に対してそれぞれ64.5%と45.0%の文字誤り低減率(CERR)を改善する。
論文 参考訳(メタデータ) (2022-07-20T13:33:41Z) - Comparing the Benefit of Synthetic Training Data for Various Automatic
Speech Recognition Architectures [44.803590841664]
TTSシステムにおけるデータプリプロセッシングにおける沈黙補正の新たなアプローチを提案する。
最終単語誤り率は3.3%/10.0%で、クリーン/ノイズテストセット上でハイブリッドシステムを実現する。
論文 参考訳(メタデータ) (2021-04-12T11:59:23Z) - Learning Speaker Embedding from Text-to-Speech [59.80309164404974]
我々は,エンドツーエンドのTacotron 2 TTSと話者埋め込みネットワークを,自己指導型で共同で訓練した。
本研究は,手書き文字とASR書き起こし文字のトレーニングについて検討した。
教師なしTS埋め込みは、LibriTTSデータセットのi-vectorに関して、EERを2.06%改善した。
論文 参考訳(メタデータ) (2020-10-21T18:03:16Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。