論文の概要: ASDF: A Differential Testing Framework for Automatic Speech Recognition
Systems
- arxiv url: http://arxiv.org/abs/2302.05582v1
- Date: Sat, 11 Feb 2023 02:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 19:47:25.234420
- Title: ASDF: A Differential Testing Framework for Automatic Speech Recognition
Systems
- Title(参考訳): ASDF:自動音声認識システムのための差分テストフレームワーク
- Authors: Daniel Hao Xian Yuen, Andrew Yong Chen Pang, Zhou Yang, Chun Yong
Chong, Mei Kuan Lim, David Lo
- Abstract要約: 本稿では,自動音声認識微分テストフレームワークASDFを提案する。
ASDFは、失敗したテストケースのテキストに様々なテキスト変換手法を適用することで、より高品質なテストケースを生成する。
ASDFは、ASRシステムが誤って書き起こす傾向にある音素を特定するために、特定されたテストケースの音素解析を行う。
- 参考スコア(独自算出の注目度): 10.143030769146657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed wider adoption of Automated Speech Recognition
(ASR) techniques in various domains. Consequently, evaluating and enhancing the
quality of ASR systems is of great importance. This paper proposes ASDF, an
Automated Speech Recognition Differential Testing Framework for testing ASR
systems. ASDF extends an existing ASR testing tool, the CrossASR++, which
synthesizes test cases from a text corpus. However, CrossASR++ fails to make
use of the text corpus efficiently and provides limited information on how the
failed test cases can improve ASR systems. To address these limitations, our
tool incorporates two novel features: (1) a text transformation module to boost
the number of generated test cases and uncover more errors in ASR systems and
(2) a phonetic analysis module to identify on which phonemes the ASR system
tend to produce errors. ASDF generates more high-quality test cases by applying
various text transformation methods (e.g., change tense) to the texts in failed
test cases. By doing so, ASDF can utilize a small text corpus to generate a
large number of audio test cases, something which CrossASR++ is not capable of.
In addition, ASDF implements more metrics to evaluate the performance of ASR
systems from multiple perspectives. ASDF performs phonetic analysis on the
identified failed test cases to identify the phonemes that ASR systems tend to
transcribe incorrectly, providing useful information for developers to improve
ASR systems. The demonstration video of our tool is made online at
https://www.youtube.com/watch?v=DzVwfc3h9As. The implementation is available at
https://github.com/danielyuenhx/asdf-differential-testing.
- Abstract(参考訳): 近年,様々な領域で自動音声認識(ASR)技術が広く採用されている。
したがって、asrシステムの品質の評価と向上は非常に重要である。
本稿では,ASRシステムをテストするための自動音声認識微分テストフレームワークASDFを提案する。
ASDFは既存のASRテストツールであるCrossASR++を拡張し、テキストコーパスからテストケースを合成する。
しかし、CrossASR++はテキストコーパスを効率的に利用できず、失敗したテストケースがASRシステムを改善する方法について限られた情報を提供している。
これらの制限に対処するため,本ツールは,(1)生成したテストケース数を増加させ,asrシステム内のエラーをより発見するためのテキスト変換モジュール,(2)asrシステムがエラーを発生させる音素を識別する音素解析モジュールという,2つの新機能を組み込んだ。
ASDFは、失敗したテストケースのテキストに様々なテキスト変換(例えば、変更時制)を適用することで、より高品質なテストケースを生成する。
これにより、ASDFは小さなテキストコーパスを使用して、CrossASR++ではできないような、多数のオーディオテストケースを生成することができる。
さらに、ASDFは複数の視点からASRシステムの性能を評価するためにより多くのメトリクスを実装している。
ASDFは、ASRシステムが誤って書き起こされがちな音素を特定するために、特定されたテストケースの音声解析を行い、開発者がASRシステムを改善するのに有用な情報を提供する。
このツールのデモビデオは、https://www.youtube.com/watch?
v=DzVwfc3h9A。
実装はhttps://github.com/danielyuenhx/asdf-differential-testingで利用可能である。
関連論文リスト
- Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Speech Emotion Recognition with ASR Transcripts: A Comprehensive Study on Word Error Rate and Fusion Techniques [17.166092544686553]
本研究では,3つのよく知られたコーパス上の11種類のモデルから,単語誤り率(WER)の異なるASR文字を用いた音声感情認識のベンチマークを行った。
本稿では, ASR 誤り訂正とモダリティゲート融合を統合した ASR 誤り処理フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:59:25Z) - ASTER: Automatic Speech Recognition System Accessibility Testing for
Stutterers [25.466850759460364]
ASRシステムのアクセシビリティを自動テストする技術であるASTERを提案する。
ASTERは5種類のスタブリングを注入することで有効なテストケースを生成する。
評価されたASRシステムでは,単語誤り率,一致誤り率,単語情報損失を著しく増大させる。
論文 参考訳(メタデータ) (2023-08-30T03:46:52Z) - Boosting Punctuation Restoration with Data Generation and Reinforcement
Learning [70.26450819702728]
触覚回復は自動音声認識(ASR)における重要な課題である
テキストの句読点とASRテキストとの相違は、ASRテキストの句読点復元システムのトレーニングにおいて、テキストのユーザビリティを制限している。
本稿では,このギャップを埋めるために,話題内テキストを活用した強化学習手法と大規模事前学習型生成言語モデルの最近の進歩を提案する。
論文 参考訳(メタデータ) (2023-07-24T17:22:04Z) - Multimodal Audio-textual Architecture for Robust Spoken Language
Understanding [18.702076738332867]
マルチモーダル言語理解 (MLU) モジュールは、ASR文字の誤りによるSLUの性能劣化を軽減するために提案されている。
本モデルは,3つのSLUデータセットから5つのタスクに対して評価し,3つのASRエンジンからのASR転写を用いてロバスト性を検証した。
その結果、提案手法は、学術的ASRエンジンの全てのデータセットでPLMモデルの性能を上回り、ASRエラー伝播問題を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2023-06-12T01:55:53Z) - DUAL: Textless Spoken Question Answering with Speech Discrete Unit
Adaptive Learning [66.71308154398176]
SQA (Spken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。
既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。
本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-09T17:46:22Z) - N-Best ASR Transformer: Enhancing SLU Performance using Multiple ASR
Hypotheses [0.0]
Spoken Language Understanding (SLU)は、音声をダイアログやスロットのような意味構造に解析する。
提案手法は,低データ体制下での先行技術よりも著しく優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T17:29:00Z) - Hallucination of speech recognition errors with sequence to sequence
learning [16.39332236910586]
プレーンテキストデータを使用して話し言葉理解やASRのためのシステムのトレーニングを行う場合、証明された戦略は、ASR出力が金の転写を与えるであろうものを幻覚することです。
本稿では,asr語列の幻覚的出力,入力語列の条件づけ,対応する音素列を直接予測する新しいエンドツーエンドモデルを提案する。
これにより、ドメイン内ASRシステムの未確認データの転写からのエラーのリコール、およびドメイン外ASRシステムの非関連タスクからのオーディオの転写の以前の結果が改善されます。
論文 参考訳(メタデータ) (2021-03-23T02:09:39Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。