論文の概要: Beyond Levenshtein: Leveraging Multiple Algorithms for Robust Word Error Rate Computations And Granular Error Classifications
- arxiv url: http://arxiv.org/abs/2408.15616v1
- Date: Wed, 28 Aug 2024 08:14:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 16:53:03.834347
- Title: Beyond Levenshtein: Leveraging Multiple Algorithms for Robust Word Error Rate Computations And Granular Error Classifications
- Title(参考訳): Levenshteinを超えて:ロバストな単語誤り率計算と粒度誤り分類のための複数のアルゴリズムを活用する
- Authors: Korbinian Kuhn, Verena Kersken, Gottfried Zimmermann,
- Abstract要約: 単語誤り率(WER)は自動音声認識(ASR)の精度の一般的な尺度である
本稿では,ロバストな WER を計算するために,拡張Levenshtein 距離アルゴリズムを用いた非破壊的トークンベース手法を提案する。
我々はまた、句読点誤り率などの派生したユースケースの例分析や、実装のインタラクティブな使用と可視化のためのWebアプリケーションも提供する。
- 参考スコア(独自算出の注目度): 5.266869303483375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Word Error Rate (WER) is the common measure of accuracy for Automatic Speech Recognition (ASR). Transcripts are usually pre-processed by substituting specific characters to account for non-semantic differences. As a result of this normalisation, information on the accuracy of punctuation or capitalisation is lost. We present a non-destructive, token-based approach using an extended Levenshtein distance algorithm to compute a robust WER and additional orthographic metrics. Transcription errors are also classified more granularly by existing string similarity and phonetic algorithms. An evaluation on several datasets demonstrates the practical equivalence of our approach compared to common WER computations. We also provide an exemplary analysis of derived use cases, such as a punctuation error rate, and a web application for interactive use and visualisation of our implementation. The code is available open-source.
- Abstract(参考訳): ワード誤り率(Word Error Rate、WER)は、自動音声認識(ASR)の精度の一般的な尺度である。
トランスクリプトは通常、非セマンティックな違いを説明するために特定の文字を置換することで前処理される。
この正規化の結果、句読点の精度や資本化の精度に関する情報が失われる。
拡張されたLevenshtein距離アルゴリズムを用いて、ロバストなWERと追加の正書法メトリクスを計算する非破壊的トークンベースアプローチを提案する。
転写誤りは、既存の文字列類似性や音声アルゴリズムによってより細かく分類される。
いくつかのデータセットに対する評価は、一般的なWER計算と比較して、我々のアプローチの実用的等価性を示している。
我々はまた、句読点誤り率などの派生したユースケースの例分析や、実装のインタラクティブな使用と可視化のためのWebアプリケーションも提供する。
コードはオープンソースで公開されている。
関連論文リスト
- Optimizing Contextual Speech Recognition Using Vector Quantization for Efficient Retrieval [18.333752341467083]
バイアス機構は典型的には、オーディオとバイアスのエントリのカタログの間のクロスアテンションモジュールに基づいている。
本研究では,ベクトル量子化に基づくクロスアテンションスコアリングに対する近似を提案する。
検索に基づくショートリスト化により,数千のエントリのバイアス付けカタログを効率よく活用できることを示す。
論文 参考訳(メタデータ) (2024-11-01T15:28:03Z) - Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Optimized Tokenization for Transcribed Error Correction [10.297878672883973]
本研究では, 合成データのみを用いたトレーニングにより, 補正モデルの性能を著しく向上させることができることを示す。
具体的には、一組の転写データから得られた誤差分布を用いて生成された合成データが、ランダムな摂動を適用する一般的な手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-16T12:14:21Z) - Contextual Biasing with the Knuth-Morris-Pratt Matching Algorithm [45.42075576656938]
文脈バイアスとは、音声認識システムを希少な実体に偏り付ける問題を指す。
パターンマッチングのためのKnuth-Morris-Prattアルゴリズムに基づく文脈バイアスのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-29T22:50:10Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Extracting Grammars from a Neural Network Parser for Anomaly Detection
in Unknown Formats [79.6676793507792]
強化学習は、ある未知のフォーマットで文を解析するために、人工知能を訓練する技術として、最近約束されている。
本稿では、ニューラルネットワークから生成規則を抽出し、これらの規則を用いて、ある文が名目か異常かを決定する手順を提案する。
論文 参考訳(メタデータ) (2021-07-30T23:10:24Z) - Automatic Vocabulary and Graph Verification for Accurate Loop Closure
Detection [21.862978912891677]
Bag-of-Words (BoW)は、機能と関連付け、ループを検出する視覚語彙を構築する。
本稿では,ノードの半径と特徴記述子のドリフトを比較することで,自然な収束基準を提案する。
本稿では,候補ループの検証のための新しいトポロジカルグラフ検証手法を提案する。
論文 参考訳(メタデータ) (2021-07-30T13:19:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。