論文の概要: Lenient Evaluation of Japanese Speech Recognition: Modeling Naturally
Occurring Spelling Inconsistency
- arxiv url: http://arxiv.org/abs/2306.04530v1
- Date: Wed, 7 Jun 2023 15:39:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 13:43:11.995166
- Title: Lenient Evaluation of Japanese Speech Recognition: Modeling Naturally
Occurring Spelling Inconsistency
- Title(参考訳): 日本語音声認識のLenient Evaluation--自然発生スペルの不整合のモデル化
- Authors: Shigeki Karita, Richard Sproat, Haruko Ishikawa
- Abstract要約: 我々は,語彙資源,日本語テキスト処理システム,ニューラルマシン翻訳モデルの組み合わせを用いて,参照転写の可塑性レスペリングの格子を作成する。
提案手法は,単語の有効な代替綴りを選択するシステムにペナルティを課さないため,タスクに応じてCERを2.4%~3.1%削減する。
- 参考スコア(独自算出の注目度): 8.888638284299736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word error rate (WER) and character error rate (CER) are standard metrics in
Speech Recognition (ASR), but one problem has always been alternative
spellings: If one's system transcribes adviser whereas the ground truth has
advisor, this will count as an error even though the two spellings really
represent the same word.
Japanese is notorious for ``lacking orthography'': most words can be spelled
in multiple ways, presenting a problem for accurate ASR evaluation. In this
paper we propose a new lenient evaluation metric as a more defensible CER
measure for Japanese ASR. We create a lattice of plausible respellings of the
reference transcription, using a combination of lexical resources, a Japanese
text-processing system, and a neural machine translation model for
reconstructing kanji from hiragana or katakana. In a manual evaluation, raters
rated 95.4% of the proposed spelling variants as plausible. ASR results show
that our method, which does not penalize the system for choosing a valid
alternate spelling of a word, affords a 2.4%-3.1% absolute reduction in CER
depending on the task.
- Abstract(参考訳): 単語誤り率 (WER) と文字誤り率 (CER) は、音声認識(ASR)における標準的な指標であるが、一つの問題は、常に代替の綴りである。
日本語は'lacking orthography'で悪名高く、ほとんどの単語は複数の方法で綴られ、asrの正確な評価に問題がある。
本稿では,日本語ASRに対するより防御性の高いCER尺度として,新しい信頼度評価指標を提案する。
我々は、語彙資源、日本語テキスト処理システム、およびヒラガナやカタカナから漢字を再構築するためのニューラルネットワーク翻訳モデルの組み合わせを用いて、参照文字の可読な書き起こしの格子を作成する。
手動による評価では、提案された綴りのバリエーションの95.4%が可算であると評価された。
ASRの結果,単語の有効な代替スペルを選択するシステムにペナルティを課さない手法では,タスクに応じてCERを2.4%~3.1%削減できることがわかった。
関連論文リスト
- Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - Unsupervised Language agnostic WER Standardization [4.768240090076601]
本稿では,スペル正規化とセグメント正規化という2つのモジュールからなる自動WER正規化システムを提案する。
4つの言語にわたる35K発話に対するASRによる実験の結果、平均的なWERの減少率は13.28%となった。
論文 参考訳(メタデータ) (2023-03-09T05:50:54Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Toward Zero Oracle Word Error Rate on the Switchboard Benchmark [0.3297645391680979]
スイッチボードベンチマーク」は自動音声認識(ASR)研究において非常によく知られたテストセットである。
この研究は、単語誤り率(WER)の大幅な改善を実証し、この評価についてあまり知られていない実践的考察を強調した。
商用のASRシステムでさえ5% WER以下に得点でき、研究システムの確立された記録は2.3%に低下する。
論文 参考訳(メタデータ) (2022-06-13T14:26:40Z) - Is Word Error Rate a good evaluation metric for Speech Recognition in
Indic Languages? [0.0]
自動音声認識(ASR)における誤り率計算のための新しい手法を提案する。
この新しいメートル法は、半分の文字を持ち、同じ文字を異なる形式で書くことができる言語のためのものである。
私たちは、インディ・コンテクストの主要な言語の一つであるヒンディー語で方法論を実装しています。
論文 参考訳(メタデータ) (2022-03-30T18:32:08Z) - FastCorrect 2: Fast Error Correction on Multiple Candidates for
Automatic Speech Recognition [92.12910821300034]
本稿では,複数のASR候補を入力として取り込んだ誤り訂正モデルFastCorrect 2を提案する。
FastCorrect 2は、カスケードされた再描画と修正パイプラインよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-09-29T13:48:03Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Vartani Spellcheck -- Automatic Context-Sensitive Spelling Correction of
OCR-generated Hindi Text Using BERT and Levenshtein Distance [3.0422254248414276]
Vartani Spellcheck はヒンディー語テキストのスペル補正のための文脈依存型アプローチである。
81%の精度で, 従来確立されていたヒンディー語における文脈依存的誤り訂正機構よりも有意な改善が認められた。
論文 参考訳(メタデータ) (2020-12-14T15:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。