論文の概要: ASTER: Automatic Speech Recognition System Accessibility Testing for
Stutterers
- arxiv url: http://arxiv.org/abs/2308.15742v1
- Date: Wed, 30 Aug 2023 03:46:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 14:53:59.299336
- Title: ASTER: Automatic Speech Recognition System Accessibility Testing for
Stutterers
- Title(参考訳): ASTER:スタッタの自動音声認識システムアクセシビリティテスト
- Authors: Yi Liu, Yuekang Li, Gelei Deng, Felix Juefei-Xu, Yao Du, Cen Zhang,
Chengwei Liu, Yeting Li, Lei Ma and Yang Liu
- Abstract要約: ASRシステムのアクセシビリティを自動テストする技術であるASTERを提案する。
ASTERは5種類のスタブリングを注入することで有効なテストケースを生成する。
評価されたASRシステムでは,単語誤り率,一致誤り率,単語情報損失を著しく増大させる。
- 参考スコア(独自算出の注目度): 25.466850759460364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The popularity of automatic speech recognition (ASR) systems nowadays leads
to an increasing need for improving their accessibility. Handling stuttering
speech is an important feature for accessible ASR systems. To improve the
accessibility of ASR systems for stutterers, we need to expose and analyze the
failures of ASR systems on stuttering speech. The speech datasets recorded from
stutterers are not diverse enough to expose most of the failures. Furthermore,
these datasets lack ground truth information about the non-stuttered text,
rendering them unsuitable as comprehensive test suites. Therefore, a
methodology for generating stuttering speech as test inputs to test and analyze
the performance of ASR systems is needed. However, generating valid test inputs
in this scenario is challenging. The reason is that although the generated test
inputs should mimic how stutterers speak, they should also be diverse enough to
trigger more failures. To address the challenge, we propose ASTER, a technique
for automatically testing the accessibility of ASR systems. ASTER can generate
valid test cases by injecting five different types of stuttering. The generated
test cases can both simulate realistic stuttering speech and expose failures in
ASR systems. Moreover, ASTER can further enhance the quality of the test cases
with a multi-objective optimization-based seed updating algorithm. We
implemented ASTER as a framework and evaluated it on four open-source ASR
models and three commercial ASR systems. We conduct a comprehensive evaluation
of ASTER and find that it significantly increases the word error rate, match
error rate, and word information loss in the evaluated ASR systems.
Additionally, our user study demonstrates that the generated stuttering audio
is indistinguishable from real-world stuttering audio clips.
- Abstract(参考訳): 近年,音声認識システム(ASR)の普及により,アクセシビリティ向上の必要性が高まっている。
音声の発声処理はasrシステムにとって重要な機能である。
発声者に対するASRシステムのアクセシビリティを向上させるためには,発声者に対するASRシステムの故障を暴露・解析する必要がある。
スタッターから録音された音声データセットは、ほとんどの障害を露呈するほど多様ではない。
さらに、これらのデータセットには、非スタッタテキストに関する基礎的な真実情報がなく、包括的なテストスイートとして適さない。
そのため, ASR システムの性能を試験・解析するためのテスト入力として, 発声音声を生成する手法が必要である。
しかし、このシナリオで有効なテストインプットを生成することは難しい。
なぜなら、生成されたテストインプットは、スタッタの話し方を模倣するべきだが、より多くの障害を引き起こすのに十分な多様性を持つ必要があるからです。
そこで本研究では,ASRシステムのアクセシビリティを自動テストする技術であるASTERを提案する。
asterは5種類のストッターを注入することで有効なテストケースを生成することができる。
生成されたテストケースは、現実的な発声音声をシミュレートし、ASRシステムで失敗を露呈する。
さらに、ASTERは多目的最適化に基づくシード更新アルゴリズムにより、テストケースの品質をさらに向上させることができる。
ASTERをフレームワークとして実装し、4つのオープンソースASRモデルと3つの商用ASRシステムで評価した。
我々はASTERの総合評価を行い、評価されたASRシステムにおいて単語誤り率、一致誤り率、単語情報損失を大幅に増加させることを見出した。
また,本研究では,生成した音声は実世界の音声クリップと区別できないことを示す。
関連論文リスト
- SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken
Question Answering [79.7437609151244]
SQA(Spken Question Answering)は、機械がユーザの質問に応答するために必要である。
本稿では、最初のエンドツーエンドフレームワークであるSpeechDPR(SpeechDPR)を提案する。
教師なしASR (UASR) と高密度テキスト検索器 (TDR) のカスケードモデルから知識を抽出して文レベルの意味表現を学習する
論文 参考訳(メタデータ) (2024-01-24T14:08:38Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech
Recognition [68.70787870401159]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Enhancing ASR for Stuttered Speech with Limited Data Using Detect and
Pass [0.0]
全世界で約7000万人が、発声障害と呼ばれる言語障害に罹患していると推定されている。
そこで本稿では,最新のASRシステムを実現するために,"Detect and Pass"と呼ばれるシンプルだが効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T19:55:23Z) - Cross-Modal ASR Post-Processing System for Error Correction and
Utterance Rejection [25.940199825317073]
音声認識のためのクロスモーダル後処理システムを提案する。
音響的特徴とテキスト的特徴を異なるモダリティから融合させる。
マルチタスク学習方式で信頼度推定器と誤り訂正器を結合する。
論文 参考訳(メタデータ) (2022-01-10T12:29:55Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Improving Distinction between ASR Errors and Speech Disfluencies with
Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。
本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T02:11:37Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Hallucination of speech recognition errors with sequence to sequence
learning [16.39332236910586]
プレーンテキストデータを使用して話し言葉理解やASRのためのシステムのトレーニングを行う場合、証明された戦略は、ASR出力が金の転写を与えるであろうものを幻覚することです。
本稿では,asr語列の幻覚的出力,入力語列の条件づけ,対応する音素列を直接予測する新しいエンドツーエンドモデルを提案する。
これにより、ドメイン内ASRシステムの未確認データの転写からのエラーのリコール、およびドメイン外ASRシステムの非関連タスクからのオーディオの転写の以前の結果が改善されます。
論文 参考訳(メタデータ) (2021-03-23T02:09:39Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。