論文の概要: Toward Zero Oracle Word Error Rate on the Switchboard Benchmark
- arxiv url: http://arxiv.org/abs/2206.06192v1
- Date: Mon, 13 Jun 2022 14:26:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 17:03:51.359331
- Title: Toward Zero Oracle Word Error Rate on the Switchboard Benchmark
- Title(参考訳): SwitchboardベンチマークでOracleのワードエラー率をゼロに
- Authors: Arlo Faria, Adam Janin, Korbinian Riedhammer, Sidhi Adkoli
- Abstract要約: スイッチボードベンチマーク」は自動音声認識(ASR)研究において非常によく知られたテストセットである。
この研究は、単語誤り率(WER)の大幅な改善を実証し、この評価についてあまり知られていない実践的考察を強調した。
商用のASRシステムでさえ5% WER以下に得点でき、研究システムの確立された記録は2.3%に低下する。
- 参考スコア(独自算出の注目度): 0.3297645391680979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The "Switchboard benchmark" is a very well-known test set in automatic speech
recognition (ASR) research, establishing record-setting performance for systems
that claim human-level transcription accuracy. This work highlights
lesser-known practical considerations of this evaluation, demonstrating major
improvements in word error rate (WER) by correcting the reference
transcriptions and deviating from the official scoring methodology. In this
more detailed and reproducible scheme, even commercial ASR systems can score
below 5\% WER and the established record for a research system is lowered to
2.3%. An alternative metric of transcript precision is proposed, which does not
penalize deletions and appears to be more discriminating for human vs. machine
performance. While commercial ASR systems are still below this threshold, a
research system is shown to clearly surpass the accuracy of commercial human
speech recognition. This work also explores using standardized scoring tools to
compute oracle WER by selecting the best among a list of alternatives. A phrase
alternatives representation is compared to utterance-level N-best lists and
word-level data structures; using dense lattices and adding out-of-vocabulary
words, this achieves an oracle WER of 0.18%.
- Abstract(参考訳): スイッチボードベンチマーク」は自動音声認識(ASR)研究において非常によく知られたテストセットであり、人間レベルの転写精度を主張するシステムの記録設定性能を確立する。
この研究は、この評価のあまり知られていない実践的考察を強調し、参照文字の修正と公式評価手法からの逸脱による単語誤り率(WER)の大幅な改善を示す。
このより詳細に再現可能なスキームでは、商用のASRシステムでさえ5\% WER未満のスコアが得られ、研究システムの確立された記録は2.3%に低下する。
書き起こし精度の別の指標が提案されており、削除を罰せず、人間と機械の性能をより区別しているように見える。
商用のASRシステムは、まだこの閾値を下回っているが、商用の人間の音声認識の精度を明らかに上回っている。
この研究は、oracle werの計算に標準化されたスコアリングツールを使うことも検討している。
フレーズの代替表現は、発話レベルのN-bestリストや単語レベルのデータ構造と比較される。
関連論文リスト
- HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - H_eval: A new hybrid evaluation metric for automatic speech recognition
tasks [0.3277163122167433]
ASRシステムのための新しいハイブリッド評価指標であるH_evalを提案する。
意味的正当性と誤り率の両方を考慮し、WERとSDが不十分なシナリオでは極めてよく機能する。
論文 参考訳(メタデータ) (2022-11-03T11:23:36Z) - Improving Distinction between ASR Errors and Speech Disfluencies with
Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。
本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T02:11:37Z) - Semantic-WER: A Unified Metric for the Evaluation of ASR Transcript for
End Usability [1.599072005190786]
最先端のシステムでは単語誤り率(WER)は5%未満である。
Semantic-WER (SWER) は、一般に下流のアプリケーションに対して、ASRの書き起こしを評価するための指標である。
論文 参考訳(メタデータ) (2021-06-03T17:35:14Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - WER-BERT: Automatic WER Estimation with BERT in a Balanced Ordinal
Classification Paradigm [0.0]
分類設定におけるe-WERの新たなバランスの取れたパラダイムを提案する。
このパラダイムでは、E-WERの音声機能を備えたBERTベースのアーキテクチャであるWER-BERTも提案しています。
結果と実験は、WER-BERTが自動WER推定において新しい最先端を確立することを示しています。
論文 参考訳(メタデータ) (2021-01-14T07:26:28Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。