論文の概要: A Text-To-Text Alignment Algorithm for Better Evaluation of Modern Speech Recognition Systems
- arxiv url: http://arxiv.org/abs/2509.24478v1
- Date: Mon, 29 Sep 2025 08:53:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.876501
- Title: A Text-To-Text Alignment Algorithm for Better Evaluation of Modern Speech Recognition Systems
- Title(参考訳): 現代音声認識システムの性能評価のためのテキストとテキストのアライメントアルゴリズム
- Authors: Lasse Borgholt, Jakob Havtorn, Christian Igel, Lars Maaløe, Zheng-Hua Tan,
- Abstract要約: 現代のニューラルネットワークは、音声認識ベンチマークのパフォーマンスを大幅に改善した。
稀な用語、名前付きエンティティ、ドメイン固有の語彙の誤りは、より簡潔であるが、集約されたメトリクスによって隠されている。
本稿では,動的プログラミングとビーム探索スコアリングを結合したアライメントアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 23.218327444488164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern neural networks have greatly improved performance across speech recognition benchmarks. However, gains are often driven by frequent words with limited semantic weight, which can obscure meaningful differences in word error rate, the primary evaluation metric. Errors in rare terms, named entities, and domain-specific vocabulary are more consequential, but remain hidden by aggregate metrics. This highlights the need for finer-grained error analysis, which depends on accurate alignment between reference and model transcripts. However, conventional alignment methods are not designed for such precision. We propose a novel alignment algorithm that couples dynamic programming with beam search scoring. Compared to traditional text alignment methods, our approach provides more accurate alignment of individual errors, enabling reliable error analysis. The algorithm is made available via PyPI.
- Abstract(参考訳): 現代のニューラルネットワークは、音声認識ベンチマークのパフォーマンスを大幅に改善した。
しかし, 主評価基準である単語誤り率に意味的な差異がみられないような, 意味的重みが限定された頻繁な単語によって引き起こされることが多い。
稀な用語、名前付きエンティティ、ドメイン固有の語彙の誤りは、より簡潔であるが、集約されたメトリクスによって隠されている。
これは、参照とモデルの書き起こしの正確なアライメントに依存する、よりきめ細かいエラー解析の必要性を強調している。
しかし、従来のアライメント手法はそのような精度で設計されていない。
本稿では,動的プログラミングとビーム探索スコアリングを結合したアライメントアルゴリズムを提案する。
従来のテキストアライメント手法と比較して,本手法は個々のエラーをより正確にアライメントし,信頼性の高いエラー解析を可能にする。
アルゴリズムはPyPIで利用可能である。
関連論文リスト
- Context Biasing for Pronunciations-Orthography Mismatch in Automatic Speech Recognition [56.972851337263755]
本稿では,置換誤りの訂正を可能とし,難解な単語の認識精度を向上させる手法を提案する。
この手法により, 単語誤り率の相対的な改善を最大11%に抑えつつ, 単語誤り率の競争力を維持することができることを示す。
論文 参考訳(メタデータ) (2025-06-23T14:42:03Z) - Beyond Levenshtein: Leveraging Multiple Algorithms for Robust Word Error Rate Computations And Granular Error Classifications [5.266869303483375]
単語誤り率(WER)は自動音声認識(ASR)の精度の一般的な尺度である
本稿では,ロバストな WER を計算するために,拡張Levenshtein 距離アルゴリズムを用いた非破壊的トークンベース手法を提案する。
我々はまた、句読点誤り率などの派生したユースケースの例分析や、実装のインタラクティブな使用と可視化のためのWebアプリケーションも提供する。
論文 参考訳(メタデータ) (2024-08-28T08:14:51Z) - Self-consistent context aware conformer transducer for speech recognition [0.06008132390640294]
ニューラルネットワークアーキテクチャにおいて、再帰的なデータフローを順応的に処理する新しいニューラルネットワークモジュールを導入する。
本手法は, 単語誤り率に悪影響を及ぼすことなく, 稀な単語の認識精度を向上させる。
その結果,両手法の組み合わせにより,まれな単語を最大4.5倍の精度で検出できることが判明した。
論文 参考訳(メタデータ) (2024-02-09T18:12:11Z) - ed-cec: improving rare word recognition using asr postprocessing based
on error detection and context-aware error correction [30.486396813844195]
本稿では,誤り検出と文脈認識誤り訂正により,稀な単語の認識を改善することに焦点を当てた新しいASRポストプロセッシング手法を提案する。
5つのデータセットにまたがる実験結果から,提案手法は従来の手法に比べて単語誤り率(WER)が有意に低いことを示す。
論文 参考訳(メタデータ) (2023-10-08T11:40:30Z) - Aligning Speakers: Evaluating and Visualizing Text-based Diarization
Using Efficient Multiple Sequence Alignment (Extended Version) [21.325463387256807]
テキストベースのDiarization Error RateとDiarization F1という2つの新しい指標が提案されている。
私たちのメトリクスは、既存のものと比較して多くの種類のエラーを含んでおり、話者ダイアリゼーションにおいてより包括的な分析を可能にします。
論文 参考訳(メタデータ) (2023-09-14T12:43:26Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Automatic Vocabulary and Graph Verification for Accurate Loop Closure
Detection [21.862978912891677]
Bag-of-Words (BoW)は、機能と関連付け、ループを検出する視覚語彙を構築する。
本稿では,ノードの半径と特徴記述子のドリフトを比較することで,自然な収束基準を提案する。
本稿では,候補ループの検証のための新しいトポロジカルグラフ検証手法を提案する。
論文 参考訳(メタデータ) (2021-07-30T13:19:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。