論文の概要: Assessing ASR Model Quality on Disordered Speech using BERTScore
- arxiv url: http://arxiv.org/abs/2209.10591v1
- Date: Wed, 21 Sep 2022 18:33:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 12:59:34.426489
- Title: Assessing ASR Model Quality on Disordered Speech using BERTScore
- Title(参考訳): BERTScoreを用いた障害音声のASRモデル品質評価
- Authors: Jimmy Tobin, Qisheng Li, Subhashini Venugopalan, Katie Seaver, Richard
Cave, Katrin Tomanek
- Abstract要約: 単語誤り率(WER)は、自動音声認識(ASR)モデルの品質を評価するために使われる主要な指標である。
ASRモデルは、典型的な英語話者よりも、音声障害のある話者に対してWERがはるかに高い傾向にあることが示されている。
本研究では,テキスト生成のための評価指標であるBERTScoreを用いて,ASRモデルの品質と有用性について,より有益な指標を提供する。
- 参考スコア(独自算出の注目度): 5.489867271342724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word Error Rate (WER) is the primary metric used to assess automatic speech
recognition (ASR) model quality. It has been shown that ASR models tend to have
much higher WER on speakers with speech impairments than typical English
speakers. It is hard to determine if models can be be useful at such high error
rates. This study investigates the use of BERTScore, an evaluation metric for
text generation, to provide a more informative measure of ASR model quality and
usefulness. Both BERTScore and WER were compared to prediction errors manually
annotated by Speech Language Pathologists for error type and assessment.
BERTScore was found to be more correlated with human assessment of error type
and assessment. BERTScore was specifically more robust to orthographic changes
(contraction and normalization errors) where meaning was preserved.
Furthermore, BERTScore was a better fit of error assessment than WER, as
measured using an ordinal logistic regression and the Akaike's Information
Criterion (AIC). Overall, our findings suggest that BERTScore can complement
WER when assessing ASR model performance from a practical perspective,
especially for accessibility applications where models are useful even at lower
accuracy than for typical speech.
- Abstract(参考訳): 単語誤り率(WER)は、自動音声認識(ASR)モデルの品質を評価するために使われる主要な指標である。
ASRモデルは、典型的な英語話者よりも、音声障害のある話者に対してWERが高い傾向が示されている。
このような高いエラー率でモデルが有用かどうかを判断することは困難である。
本研究は,テキスト生成のための評価指標であるbertscoreを用いて,asrモデルの品質と有用性をより有益に評価する。
BERTScore と WER は、誤りタイプと評価のために、音声言語病理医が手動で注釈付けした予測誤差と比較した。
BERTScoreは, エラータイプおよび評価の人為的評価と相関が認められた。
BERTScoreは特に、意味が保存されている正書法的な変更(抽出と正規化の誤り)に対して堅牢であった。
さらに、BERTScoreは、通常のロジスティック回帰とAkaike's Information Criterion(AIC)を用いて測定したように、WERよりもエラー評価に適していた。
全体として, bertscore はasrモデルの性能を実用的観点から評価する場合, 特にアクセシビリティ・アプリケーションにおいて, 従来の音声よりも精度が低い場合にも, ベルツコアは wer を補完できることが示唆された。
関連論文リスト
- Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models [69.38024658668887]
イベント抽出の現在の評価法はトークンレベルの正確な一致に依存している。
トークンレベルではなくセマンティックレベルでイベント抽出結果を正確に評価する自動評価フレームワークであるRAEEを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:54:01Z) - Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。
我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。
以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文 参考訳(メタデータ) (2024-07-05T09:26:40Z) - Useful Blunders: Can Automated Speech Recognition Errors Improve
Downstream Dementia Classification? [9.275790963007173]
自動音声認識システム(ASR)の誤差が認知症分類精度に与える影響について検討した。
ASRが生成した不完全な転写産物が貴重な情報を提供するかどうかを評価することを目的としていた。
論文 参考訳(メタデータ) (2024-01-10T21:38:03Z) - LibriSpeech-PC: Benchmark for Evaluation of Punctuation and
Capitalization Capabilities of end-to-end ASR Models [58.790604613878216]
我々は,エンドツーエンドのASRモデルの句読点と大文字化予測能力を評価するために,LibriSpeech-PCベンチマークを導入する。
このベンチマークには、リストアされた句読点とキャピタライゼーションを備えたLibriSpeech-PCデータセット、句読点に焦点を当てたPunctuation Error Rate (PER)と呼ばれる新しい評価指標、および初期ベースラインモデルが含まれている。
論文 参考訳(メタデータ) (2023-10-04T16:23:37Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - NoRefER: a Referenceless Quality Metric for Automatic Speech Recognition
via Semi-Supervised Language Model Fine-Tuning with Contrastive Learning [0.20999222360659603]
NoRefERは、自動音声認識(ASR)システムのための新しい基準のない品質指標である。
NoRefERは、ASRの複数の圧縮レベルからの仮説間の既知の品質関係を利用して、品質によるサンプル内仮説のランク付けを学習する。
以上の結果から,NoRefERは基準ベースメトリクスとそのサンプル内ランクと高い相関性を示し,基準のないASR評価やa/bテストの可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-21T21:26:19Z) - Toward Human-Like Evaluation for Natural Language Generation with Error
Analysis [93.34894810865364]
最近の研究では、大きなエラー(例えば、誤訳されたトークン)と小さなエラーの両方を考慮すると、高品質な人間の判断が得られることが示されている。
これにより、自動エラー解析によって評価指標(人間のような評価)の最終目標にアプローチするインスピレーションがもたらされる。
BARTScoreは人為的なエラー解析戦略、すなわちBARTScore++を取り入れることでBARTScoreを強化します。
論文 参考訳(メタデータ) (2022-12-20T11:36:22Z) - TRScore: A Novel GPT-based Readability Scorer for ASR Segmentation and
Punctuation model evaluation and selection [1.4720080476520687]
自動音声認識における読みやすさの鍵は、触覚と可読性である。
人間の評価は高価で時間がかかり、サーバ間の大きな変動に悩まされる。
本稿では,GPTモデルを用いた新しい可読性尺度 TRScore について述べる。
論文 参考訳(メタデータ) (2022-10-27T01:11:32Z) - ASR in German: A Detailed Error Analysis [0.0]
この研究は、ドイツ語で事前訓練されたASRモデルアーキテクチャの選択を示し、様々なテストデータセットのベンチマークで評価する。
クロスアーキテクチャの予測エラーを特定し、それらをカテゴリに分類し、カテゴリ毎のエラーソースをトレーニングデータにトレースする。
論文 参考訳(メタデータ) (2022-04-12T08:25:01Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。