論文の概要: Evaluating ASR Confidence Scores for Automated Error Detection in User-Assisted Correction Interfaces
- arxiv url: http://arxiv.org/abs/2503.15124v1
- Date: Wed, 19 Mar 2025 11:33:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:22:30.069213
- Title: Evaluating ASR Confidence Scores for Automated Error Detection in User-Assisted Correction Interfaces
- Title(参考訳): ユーザ支援補正インタフェースにおける自動誤り検出のためのASR信頼スコアの評価
- Authors: Korbinian Kuhn, Verena Kersken, Gottfried Zimmermann,
- Abstract要約: 本研究では、エンド・ツー・エンドのASRモデルの総合的な解析により、誤り検出のための信頼度スコアの信頼性を評価する。
その結果,信頼度スコアは転写精度と相関するが,誤り検出性能は限定的であることがわかった。
これらの知見は、信頼性スコアの限界と、ASR結果のユーザインタラクションと説明可能性を改善するためのより洗練されたアプローチの必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 5.266869303483375
- License:
- Abstract: Despite advances in Automatic Speech Recognition (ASR), transcription errors persist and require manual correction. Confidence scores, which indicate the certainty of ASR results, could assist users in identifying and correcting errors. This study evaluates the reliability of confidence scores for error detection through a comprehensive analysis of end-to-end ASR models and a user study with 36 participants. The results show that while confidence scores correlate with transcription accuracy, their error detection performance is limited. Classifiers frequently miss errors or generate many false positives, undermining their practical utility. Confidence-based error detection neither improved correction efficiency nor was perceived as helpful by participants. These findings highlight the limitations of confidence scores and the need for more sophisticated approaches to improve user interaction and explainability of ASR results.
- Abstract(参考訳): 自動音声認識(ASR)の進歩にもかかわらず、転写エラーは持続し、手動で修正する必要がある。
ASR結果の確実性を示す信頼スコアは、エラーの特定と修正を支援する。
エンド・ツー・エンドのASRモデルの包括的分析と36名の参加者によるユーザ・スタディにより,誤り検出のための信頼度スコアの信頼性を評価する。
その結果,信頼度は転写精度と相関するが,誤り検出性能は限定的であることがわかった。
分類器はしばしば誤りを犯したり、多くの偽陽性を発生させ、実用性を損なう。
信頼に基づく誤り検出では,修正効率は向上せず,参加者の役にも立たないと考えられた。
これらの知見は、信頼性スコアの限界と、ASR結果のユーザインタラクションと説明可能性を改善するためのより洗練されたアプローチの必要性を浮き彫りにしている。
関連論文リスト
- Not All Errors Are Equal: Investigation of Speech Recognition Errors in Alzheimer's Disease Detection [62.942077348224046]
アルツハイマー病(AD)の自動診断における音声認識の役割
近年の研究では,単語誤り率(WER)とAD検出性能の非線形関係が明らかにされている。
本研究は,BERTを用いたAD検出システムにおけるASR転写誤りの影響について,一連の解析を行った。
論文 参考訳(メタデータ) (2024-12-09T09:32:20Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - Confidence-Aware Document OCR Error Detection [1.003485566379789]
我々は,OCRシステム間の信頼度スコアと誤差率の相関関係を解析した。
我々は、OCR信頼スコアをトークン埋め込みに組み込むBERTベースのモデルConfBERTを開発した。
論文 参考訳(メタデータ) (2024-09-06T08:35:28Z) - Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - Toward Practical Automatic Speech Recognition and Post-Processing: a
Call for Explainable Error Benchmark Guideline [12.197453599489963]
本稿では,Error Explainable Benchmark (EEB) データセットの開発を提案する。
このデータセットは、音声レベルとテキストレベルの両方を考慮しているが、モデルの欠点を詳細に理解することができる。
我々の提案は、より現実世界中心の評価のための構造化された経路を提供し、ニュアンスドシステムの弱点の検出と修正を可能にします。
論文 参考訳(メタデータ) (2024-01-26T03:42:45Z) - TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in
End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。
信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。
我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文 参考訳(メタデータ) (2024-01-06T16:29:13Z) - BLSTM-Based Confidence Estimation for End-to-End Speech Recognition [41.423717224691046]
信頼度推定は自動音声認識(ASR)アプリケーションを開発する上で重要な機能である。
最近のE2E ASRシステムは、様々なASRタスクに対して高い性能(例えば、5%のトークンエラー率)を示す。
我々は,双方向長短期メモリ(BLSTM)をベースとした強力なバイナリクラス(誤り/誤り/誤)シークエンスラベラとして採用する。
論文 参考訳(メタデータ) (2023-12-22T11:12:45Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。