論文の概要: ASTER: Automatic Speech Recognition System Accessibility Testing for
Stutterers
- arxiv url: http://arxiv.org/abs/2308.15742v1
- Date: Wed, 30 Aug 2023 03:46:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 14:53:59.299336
- Title: ASTER: Automatic Speech Recognition System Accessibility Testing for
Stutterers
- Title(参考訳): ASTER:スタッタの自動音声認識システムアクセシビリティテスト
- Authors: Yi Liu, Yuekang Li, Gelei Deng, Felix Juefei-Xu, Yao Du, Cen Zhang,
Chengwei Liu, Yeting Li, Lei Ma and Yang Liu
- Abstract要約: ASRシステムのアクセシビリティを自動テストする技術であるASTERを提案する。
ASTERは5種類のスタブリングを注入することで有効なテストケースを生成する。
評価されたASRシステムでは,単語誤り率,一致誤り率,単語情報損失を著しく増大させる。
- 参考スコア(独自算出の注目度): 25.466850759460364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The popularity of automatic speech recognition (ASR) systems nowadays leads
to an increasing need for improving their accessibility. Handling stuttering
speech is an important feature for accessible ASR systems. To improve the
accessibility of ASR systems for stutterers, we need to expose and analyze the
failures of ASR systems on stuttering speech. The speech datasets recorded from
stutterers are not diverse enough to expose most of the failures. Furthermore,
these datasets lack ground truth information about the non-stuttered text,
rendering them unsuitable as comprehensive test suites. Therefore, a
methodology for generating stuttering speech as test inputs to test and analyze
the performance of ASR systems is needed. However, generating valid test inputs
in this scenario is challenging. The reason is that although the generated test
inputs should mimic how stutterers speak, they should also be diverse enough to
trigger more failures. To address the challenge, we propose ASTER, a technique
for automatically testing the accessibility of ASR systems. ASTER can generate
valid test cases by injecting five different types of stuttering. The generated
test cases can both simulate realistic stuttering speech and expose failures in
ASR systems. Moreover, ASTER can further enhance the quality of the test cases
with a multi-objective optimization-based seed updating algorithm. We
implemented ASTER as a framework and evaluated it on four open-source ASR
models and three commercial ASR systems. We conduct a comprehensive evaluation
of ASTER and find that it significantly increases the word error rate, match
error rate, and word information loss in the evaluated ASR systems.
Additionally, our user study demonstrates that the generated stuttering audio
is indistinguishable from real-world stuttering audio clips.
- Abstract(参考訳): 近年,音声認識システム(ASR)の普及により,アクセシビリティ向上の必要性が高まっている。
音声の発声処理はasrシステムにとって重要な機能である。
発声者に対するASRシステムのアクセシビリティを向上させるためには,発声者に対するASRシステムの故障を暴露・解析する必要がある。
スタッターから録音された音声データセットは、ほとんどの障害を露呈するほど多様ではない。
さらに、これらのデータセットには、非スタッタテキストに関する基礎的な真実情報がなく、包括的なテストスイートとして適さない。
そのため, ASR システムの性能を試験・解析するためのテスト入力として, 発声音声を生成する手法が必要である。
しかし、このシナリオで有効なテストインプットを生成することは難しい。
なぜなら、生成されたテストインプットは、スタッタの話し方を模倣するべきだが、より多くの障害を引き起こすのに十分な多様性を持つ必要があるからです。
そこで本研究では,ASRシステムのアクセシビリティを自動テストする技術であるASTERを提案する。
asterは5種類のストッターを注入することで有効なテストケースを生成することができる。
生成されたテストケースは、現実的な発声音声をシミュレートし、ASRシステムで失敗を露呈する。
さらに、ASTERは多目的最適化に基づくシード更新アルゴリズムにより、テストケースの品質をさらに向上させることができる。
ASTERをフレームワークとして実装し、4つのオープンソースASRモデルと3つの商用ASRシステムで評価した。
我々はASTERの総合評価を行い、評価されたASRシステムにおいて単語誤り率、一致誤り率、単語情報損失を大幅に増加させることを見出した。
また,本研究では,生成した音声は実世界の音声クリップと区別できないことを示す。
関連論文リスト
- Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Lost in Transcription: Identifying and Quantifying the Accuracy Biases of Automatic Speech Recognition Systems Against Disfluent Speech [0.0]
音声認識システムは、典型的な流布から逸脱した音声パターンを正確に解釈することができず、重要なユーザビリティの問題や誤解釈につながる。
本研究は6つの主要なASRを解析し,発話サンプルの実際のデータセットと,広範に使用されているLibriSpeechベンチマークから得られた合成データセットを解析した。
結果より,すべてのASRにおいて,非流動性音声に対する一貫した,統計的に有意な精度バイアスがみられ,転写における意味的不正確性や意味的不正確性がみられた。
論文 参考訳(メタデータ) (2024-05-10T00:16:58Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Enhancing ASR for Stuttered Speech with Limited Data Using Detect and
Pass [0.0]
全世界で約7000万人が、発声障害と呼ばれる言語障害に罹患していると推定されている。
そこで本稿では,最新のASRシステムを実現するために,"Detect and Pass"と呼ばれるシンプルだが効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T19:55:23Z) - Cross-Modal ASR Post-Processing System for Error Correction and
Utterance Rejection [25.940199825317073]
音声認識のためのクロスモーダル後処理システムを提案する。
音響的特徴とテキスト的特徴を異なるモダリティから融合させる。
マルチタスク学習方式で信頼度推定器と誤り訂正器を結合する。
論文 参考訳(メタデータ) (2022-01-10T12:29:55Z) - Improving Distinction between ASR Errors and Speech Disfluencies with
Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。
本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T02:11:37Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。