論文の概要: "Sorry, I Didn't Catch That": How Speech Models Miss What Matters Most
- arxiv url: http://arxiv.org/abs/2602.12249v1
- Date: Thu, 12 Feb 2026 18:36:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.980988
- Title: "Sorry, I Didn't Catch That": How Speech Models Miss What Matters Most
- Title(参考訳): さようなら、私はそれをキャッチしなかった」:音声モデルが最重要事項を見逃す方法
- Authors: Kaitlyn Zhou, Martijn Bartelds, Federico Bianchi, James Zou,
- Abstract要約: 本研究は, ハイテイクタスクにおける障害モードについて考察する。
OpenAI、Deepgram、Google、Microsoftの15のモデルを、言語的に多様な米国の話者の録音で評価し、平均転写エラー率は44%である。
この害を軽減するために、オープンソースのテキスト音声モデルを用いて、名前付きエンティティの様々な発音を生成する合成データ生成手法を導入する。
- 参考スコア(独自算出の注目度): 30.735876729204012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite speech recognition systems achieving low word error rates on standard benchmarks, they often fail on short, high-stakes utterances in real-world deployments. Here, we study this failure mode in a high-stakes task: the transcription of U.S. street names as spoken by U.S. participants. We evaluate 15 models from OpenAI, Deepgram, Google, and Microsoft on recordings from linguistically diverse U.S. speakers and find an average transcription error rate of 44%. We quantify the downstream impact of failed transcriptions by geographic locations and show that mis-transcriptions systematically cause errors for all speakers, but that routing distance errors are twice as large for non-English primary speakers compared to English primary speakers. To mitigate this harm, we introduce a synthetic data generation approach that produces diverse pronunciations of named entities using open-source text-to-speech models. Fine-tuning with less than 1,000 synthetic samples improves street name transcription accuracy by nearly 60% (relative to base models) for non-English primary speakers. Our results highlight a critical gap between benchmark performance and real-world reliability in speech systems and demonstrate a simple, scalable path to reducing high-stakes transcription errors.
- Abstract(参考訳): 音声認識システムは、標準ベンチマークで単語エラー率を低くするが、実世界の展開において、短時間で高い発話で失敗することが多い。
本稿では、この障害モードを、米国の参加者が話すように、米国の街路名を書き起こす、ハイテイクなタスクで研究する。
OpenAI、Deepgram、Google、Microsoftの15のモデルを、言語的に多様な米国の話者の録音で評価し、平均転写エラー率は44%である。
本研究では, 誤り書き起こしがすべての話者の誤りを系統的に引き起こすことを示すとともに, 英語話者と比較して, 経路距離誤差が英語話者の2倍であることを示す。
この害を軽減するために、オープンソースのテキスト音声モデルを用いて、名前付きエンティティの様々な発音を生成する合成データ生成手法を導入する。
1000種未満の合成サンプルによる微調整は、英語圏以外の話者に対して、街路名の転写精度を60%近く向上させる(ベースモデルと比較して)。
本結果は,音声システムにおけるベンチマーク性能と実世界の信頼性の間に重要なギャップを生じさせ,高精度な書き起こし誤りを減らすためのシンプルでスケーラブルな経路を示すものである。
関連論文リスト
- Context Biasing for Pronunciations-Orthography Mismatch in Automatic Speech Recognition [61.601626186678146]
本稿では,置換誤りの訂正を可能とし,難解な単語の認識精度を向上させる手法を提案する。
本手法により, 単語誤り率の相対的な改善を最大8%まで達成し, 単語誤り率の競争力を維持した。
論文 参考訳(メタデータ) (2025-06-23T14:42:03Z) - Speaker Tagging Correction With Non-Autoregressive Language Models [0.0]
非自己回帰言語モデルに基づく話者タグ付け補正システムを提案する。
提案手法は, 単語ダイアリゼーション誤り率 (WDER) を2つのデータセットで減少させる。
論文 参考訳(メタデータ) (2024-08-30T11:02:17Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Lexical Speaker Error Correction: Leveraging Language Models for Speaker
Diarization Error Correction [4.409889336732851]
話者ダイアリゼーション (SD) は通常、認識された単語に話者ラベルを登録するために自動音声認識 (ASR) システムで使用される。
このアプローチは、特に話者回転と話者重複領域に関する話者誤差を引き起こす可能性がある。
語彙情報を用いた第2パス話者誤り訂正システムを提案する。
論文 参考訳(メタデータ) (2023-06-15T17:47:41Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - ASR Error Detection via Audio-Transcript entailment [1.3750624267664155]
音声書き起こしエンターメントを用いたASR誤り検出のためのエンドツーエンドアプローチを提案する。
提案モデルでは,音響エンコーダと言語エンコーダを用いて,それぞれ音声と転写をモデル化する。
提案モデルでは,すべての転写誤りに対して26.2%,医学的誤りに対して23%の分類誤り率(CER)を達成し,それぞれ12%と15.4%の強い基準値を改善することができた。
論文 参考訳(メタデータ) (2022-07-22T02:47:15Z) - Computer-assisted Pronunciation Training -- Speech synthesis is almost
all you need [18.446969150062586]
既存のCAPT法では発音誤りを高精度に検出できない。
本稿では,音素対音素(P2P),テキスト対音声(T2S),音声対音声変換(S2S)の3つの革新的な手法を提案する。
これらの手法は、発音誤りを検出するための3つの機械学習モデルの精度を向上させるだけでなく、分野における新しい最先端の確立にも有効であることを示す。
論文 参考訳(メタデータ) (2022-07-02T08:33:33Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文 参考訳(メタデータ) (2021-05-09T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。