論文の概要: Unsupervised Language agnostic WER Standardization
- arxiv url: http://arxiv.org/abs/2303.05046v1
- Date: Thu, 9 Mar 2023 05:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 16:02:49.680730
- Title: Unsupervised Language agnostic WER Standardization
- Title(参考訳): 教師なし言語非依存WER標準化
- Authors: Satarupa Guha, Rahul Ambavat, Ankur Gupta, Manish Gupta, Rupeshkumar
Mehta
- Abstract要約: 本稿では,スペル正規化とセグメント正規化という2つのモジュールからなる自動WER正規化システムを提案する。
4つの言語にわたる35K発話に対するASRによる実験の結果、平均的なWERの減少率は13.28%となった。
- 参考スコア(独自算出の注目度): 4.768240090076601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word error rate (WER) is a standard metric for the evaluation of Automated
Speech Recognition (ASR) systems. However, WER fails to provide a fair
evaluation of human perceived quality in presence of spelling variations,
abbreviations, or compound words arising out of agglutination. Multiple
spelling variations might be acceptable based on locale/geography, alternative
abbreviations, borrowed words, and transliteration of code-mixed words from a
foreign language to the target language script. Similarly, in case of
agglutination, often times the agglutinated, as well as the split forms, are
acceptable. Previous work handled this problem by using manually identified
normalization pairs and applying them to both the transcription and the
hypothesis before computing WER. In this paper, we propose an automatic WER
normalization system consisting of two modules: spelling normalization and
segmentation normalization. The proposed system is unsupervised and language
agnostic, and therefore scalable. Experiments with ASR on 35K utterances across
four languages yielded an average WER reduction of 13.28%. Human judgements of
these automatically identified normalization pairs show that our WER-normalized
evaluation is highly consistent with the perceived quality of ASR output.
- Abstract(参考訳): 単語誤り率(英: word error rate、wer)は、自動音声認識(asr)システムの評価のための標準指標である。
しかし、WERは、綴りのバリエーション、略語、あるいは凝集によって生じる複合語の存在下で、人間の知覚品質を公平に評価することができない。
複数の綴りのバリエーションは、ローカライズ/地理学、代替の略語、借用語、外国語からターゲット言語スクリプトへのコード混合語の文字化に基づいて受け入れられる。
同様に、凝集の場合、しばしば凝集した凝集体と分裂した形態が許容される。
従来の作業では、手動で正規化ペアを識別し、それをWER計算の前に書き起こしと仮説の両方に適用することでこの問題に対処していた。
本稿では,スペル正規化とセグメント正規化という2つのモジュールからなる自動WER正規化システムを提案する。
提案システムは教師なし,言語に依存しないため,スケーラブルである。
4つの言語にわたる35K発話に対するASRによる実験の結果、平均的なWERの減少率は13.28%となった。
自動同定された正規化ペアの人間の判断は、我々のWER正規化評価がASR出力の知覚品質と極めて一致していることを示している。
関連論文リスト
- What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations [0.0]
本稿では,OpenAI Whisper,MetaのMMS,Seamless,アセンブリAIのConformerなど,主要なASRモデルのテキスト正規化ルーチンについて検討する。
我々の研究は、現在のテキスト正規化の実践が、公正な比較のためにASR出力を標準化することを目的としている一方で、Indicスクリプトに適用した場合、根本的な欠陥があることを明らかにする。
本稿では,言語学の専門知識を生かしたテキスト正規化ルーチン開発へのシフトを提案する。
論文 参考訳(メタデータ) (2024-09-04T05:08:23Z) - Speaker Tagging Correction With Non-Autoregressive Language Models [0.0]
非自己回帰言語モデルに基づく話者タグ付け補正システムを提案する。
提案手法は, 単語ダイアリゼーション誤り率 (WDER) を2つのデータセットで減少させる。
論文 参考訳(メタデータ) (2024-08-30T11:02:17Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Lenient Evaluation of Japanese Speech Recognition: Modeling Naturally
Occurring Spelling Inconsistency [8.888638284299736]
我々は,語彙資源,日本語テキスト処理システム,ニューラルマシン翻訳モデルの組み合わせを用いて,参照転写の可塑性レスペリングの格子を作成する。
提案手法は,単語の有効な代替綴りを選択するシステムにペナルティを課さないため,タスクに応じてCERを2.4%~3.1%削減する。
論文 参考訳(メタデータ) (2023-06-07T15:39:02Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - Benchmarking Evaluation Metrics for Code-Switching Automatic Speech
Recognition [19.763431520942028]
本研究では,人間の判断によるコードスイッチング音声認識仮説のベンチマークデータセットを開発する。
自動仮説の最小化のための明確なガイドラインを定義する。
我々は、アラビア語/英語の方言音声におけるコードスイッチング音声認識結果の人間受容のための最初のコーパスをリリースする。
論文 参考訳(メタデータ) (2022-11-22T08:14:07Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。