論文の概要: Evaluating ASR robustness to spontaneous speech errors: A study of WhisperX using a Speech Error Database
- arxiv url: http://arxiv.org/abs/2508.13060v1
- Date: Mon, 18 Aug 2025 16:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.484468
- Title: Evaluating ASR robustness to spontaneous speech errors: A study of WhisperX using a Speech Error Database
- Title(参考訳): 自然発話誤りに対するASR頑健性の評価:音声誤りデータベースを用いたWhisperXの検討
- Authors: John Alderete, Macarious Kin Fung Hui, Aanchan Mohan,
- Abstract要約: サイモンフレーザー大学音声誤りデータベース(英語: Simon Fraser University Speech Error Database、SFUSED)は、言語学と精神言語学の研究のために開発された公開データ収集である。
SFUSEDは、自発的な英語音声からの音声誤りを体系的にアノテートし、それぞれの誤りを意図的および実際の誤り生成のためにタグ付けする。
- 参考スコア(独自算出の注目度): 0.13108652488669734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Simon Fraser University Speech Error Database (SFUSED) is a public data collection developed for linguistic and psycholinguistic research. Here we demonstrate how its design and annotations can be used to test and evaluate speech recognition models. The database comprises systematically annotated speech errors from spontaneous English speech, with each error tagged for intended and actual error productions. The annotation schema incorporates multiple classificatory dimensions that are of some value to model assessment, including linguistic hierarchical level, contextual sensitivity, degraded words, word corrections, and both word-level and syllable-level error positioning. To assess the value of these classificatory variables, we evaluated the transcription accuracy of WhisperX across 5,300 documented word and phonological errors. This analysis demonstrates the atabase's effectiveness as a diagnostic tool for ASR system performance.
- Abstract(参考訳): サイモンフレーザー大学音声誤りデータベース(英語: Simon Fraser University Speech Error Database、SFUSED)は、言語学と精神言語学の研究のために開発された公開データ収集である。
ここでは、音声認識モデルのテストと評価に、その設計とアノテーションをどのように利用できるかを示す。
データベースは、自発的な英語音声からの音声誤りを体系的に注釈付けし、各誤りを意図的および実際の誤り生成のためにタグ付けする。
アノテーションスキーマは、言語階層レベル、文脈感性、劣化した単語、単語の訂正、単語レベルと音節レベルのエラー位置決めなど、モデルアセスメントに何らかの価値を持つ複数の分類的次元を組み込んでいる。
これらの分類変数の値を評価するために,5300の文書化単語と音韻的誤りに対してWhisperXの転写精度を評価した。
この分析は、ASRシステム性能の診断ツールとしてのアタベースの有効性を示す。
関連論文リスト
- SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models [60.72029578488467]
SpeechRは、大規模な音声言語モデルにおける音声に対する推論を評価するための統一的なベンチマークである。
事実検索、手続き推論、規範的判断の3つの重要な側面に沿ったモデルを評価する。
11個の最先端のLALMの評価は、高い転写精度が強い推論能力に変換されないことを示している。
論文 参考訳(メタデータ) (2025-08-04T03:28:04Z) - Tgea: An error-annotated dataset and benchmark tasks for text generation from pretrained language models [57.758735361535486]
TGEAは、事前訓練された言語モデル(PLM)からテキストを生成するためのエラーアノテートデータセットである。
PLM生成文で発生する24種類の誤りを網羅する誤り分類を作成する。
PLM生成テキストに対する包括的なアノテーションを備えた最初のデータセットである。
論文 参考訳(メタデータ) (2025-03-06T09:14:02Z) - Phonological Level wav2vec2-based Mispronunciation Detection and
Diagnosis Method [11.069975459609829]
音声特徴量検出に基づく低レベルの誤認識検出と診断(MDD)手法を提案する。
提案手法は,母国語からの英語学習者から収集したL2音声コーパスに適用した。
論文 参考訳(メタデータ) (2023-11-13T02:41:41Z) - xCOMET: Transparent Machine Translation Evaluation through Fine-grained
Error Detection [21.116517555282314]
xCOMETは、機械翻訳評価アプローチのギャップを埋めるために設計されたオープンソースの学習メトリクスである。
文レベルの評価とエラースパン検出機能を統合し、あらゆるタイプの評価で最先端のパフォーマンスを示す。
また,ストレステストによるロバストネス解析を行い,xCOMETは局所的な臨界誤差や幻覚を同定できることを示す。
論文 参考訳(メタデータ) (2023-10-16T15:03:14Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Investigating model performance in language identification: beyond
simple error statistics [28.128924654154087]
言語開発の専門家は、流動的で会話的なスピーチから言語を自動的に識別するツールを必要としている。
本研究では,言語特性の異なる個々の録音や音声単位に対して,多くの言語識別システムがどの程度機能するかを検討する。
論文 参考訳(メタデータ) (2023-05-30T10:32:53Z) - The Far Side of Failure: Investigating the Impact of Speech Recognition
Errors on Subsequent Dementia Classification [8.032686410648274]
自然発話で検出される言語異常は、認知障害などの認知障害のスクリーニングなど、様々な臨床応用の可能性を示唆している。
自己教師付き学習(SSL)自動音声認識(ASR)モデルにおいて,臨床環境から抽出した難解な音声サンプルでは,有意な性能が得られない。
我々の重要な発見の1つは、パラドックス的に、比較的高いエラー率を持つASRシステムは、動詞の文字起こしに基づく分類よりも、より下流の分類精度の高い転写文を生成できるということである。
論文 参考訳(メタデータ) (2022-11-11T17:06:45Z) - Constructing interval variables via faceted Rasch measurement and
multitask deep learning: a hate speech application [63.10266319378212]
本稿では,教師付き深層学習と多面的ラッシュアイテム応答理論(IRT)構築手法を組み合わせることで,連続区間スペクトル上の複素変数を測定する手法を提案する。
われわれは、YouTube、Twitter、Redditから5万件のソーシャルメディアコメントを収集し、1万1000人の米国拠点のAmazon Mechanical Turkの労働者によってラベル付けされたデータセット上で、この新しい手法を実証した。
論文 参考訳(メタデータ) (2020-09-22T02:15:05Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。