論文の概要: Is Word Error Rate a good evaluation metric for Speech Recognition in
Indic Languages?
- arxiv url: http://arxiv.org/abs/2203.16601v1
- Date: Wed, 30 Mar 2022 18:32:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 12:07:21.777734
- Title: Is Word Error Rate a good evaluation metric for Speech Recognition in
Indic Languages?
- Title(参考訳): 単語誤り率(word error rate)は、indic言語における音声認識の優れた評価指標か?
- Authors: Priyanshi Shah, Harveen Singh Chadha, Anirudh Gupta, Ankur Dhuriya,
Neeraj Chhimwal, Rishabh Gaur, Vivek Raghavan
- Abstract要約: 自動音声認識(ASR)における誤り率計算のための新しい手法を提案する。
この新しいメートル法は、半分の文字を持ち、同じ文字を異なる形式で書くことができる言語のためのものである。
私たちは、インディ・コンテクストの主要な言語の一つであるヒンディー語で方法論を実装しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new method for the calculation of error rates in Automatic
Speech Recognition (ASR). This new metric is for languages that contain half
characters and where the same character can be written in different forms. We
implement our methodology in Hindi which is one of the main languages from
Indic context and we think this approach is scalable to other similar languages
containing a large character set. We call our metrics Alternate Word Error Rate
(AWER) and Alternate Character Error Rate (ACER).
We train our ASR models using wav2vec 2.0\cite{baevski2020wav2vec} for Indic
languages. Additionally we use language models to improve our model
performance. Our results show a significant improvement in analyzing the error
rates at word and character level and the interpretability of the ASR system is
improved upto $3$\% in AWER and $7$\% in ACER for Hindi. Our experiments
suggest that in languages which have complex pronunciation, there are multiple
ways of writing words without changing their meaning. In such cases AWER and
ACER will be more useful rather than WER and CER as metrics. Furthermore, we
open source a new benchmarking dataset of 21 hours for Hindi with the new
metric scripts.
- Abstract(参考訳): 本稿では,自動音声認識(ASR)における誤り率の計算法を提案する。
この新しいメートル法は、半分の文字を持ち、同じ文字を異なる形式で書くことができる言語のためのものである。
私たちはindic contextの主要な言語の一つであるヒンズー語で方法論を実装しており、このアプローチは大きな文字集合を含む他の類似言語にスケーラブルであると考えています。
私たちはメトリクスを代替語誤り率(awer)と代替文字エラー率(acer)と呼んでいます。
我々は、Indic言語に対してwav2vec 2.0\cite{baevski 2020wav2vec}を使ってASRモデルを訓練する。
さらに、言語モデルを使用してモデルパフォーマンスを改善します。
その結果,単語・文字レベルでの誤り率の解析が大幅に向上し,asrシステムの解釈性がawerでは3ドル~3ドル,hindiでは7ドルに向上した。
本研究は, 発音が複雑な言語では, 意味を変えずに単語を書ける方法が複数存在することを示唆する。
そのような場合、AWERとACERはメトリクスとしてWERとCERよりも役に立つでしょう。
さらに、Hindiの新しいメトリックスクリプトで21時間のベンチマークデータセットをオープンソース化しました。
関連論文リスト
- Semantically Corrected Amharic Automatic Speech Recognition [27.569469583183423]
私たちはアフリカ東部で5000万人以上の人々が話しているアムハラ語のためのASRツールセットを構築しています。
既存のAmharic ASRテストデータセットの書き起こしを修正し、コミュニティが進捗を正確に評価できるようにする。
本稿では,トランスフォーマーエンコーダデコーダアーキテクチャを用いて,生のASR出力を文法的に完全かつ意味論的に意味のあるアムハラ語文に整理する後処理手法を提案する。
論文 参考訳(メタデータ) (2024-04-20T12:08:00Z) - Visual Speech Recognition for Languages with Limited Labeled Data using
Automatic Labels from Whisper [96.43501666278316]
本稿では,複数の言語を対象とした強力な視覚音声認識(VSR)手法を提案する。
言語識別と音声認識の両方が可能なWhisperモデルを用いる。
自動ラベルで訓練されたVSRモデルと人称ラベルで訓練したVSRモデルの性能を比較することにより,人間対応ラベルと類似のVSR性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-15T16:53:01Z) - Lenient Evaluation of Japanese Speech Recognition: Modeling Naturally
Occurring Spelling Inconsistency [8.888638284299736]
我々は,語彙資源,日本語テキスト処理システム,ニューラルマシン翻訳モデルの組み合わせを用いて,参照転写の可塑性レスペリングの格子を作成する。
提案手法は,単語の有効な代替綴りを選択するシステムにペナルティを課さないため,タスクに応じてCERを2.4%~3.1%削減する。
論文 参考訳(メタデータ) (2023-06-07T15:39:02Z) - On the Off-Target Problem of Zero-Shot Multilingual Neural Machine
Translation [104.85258654917297]
識別対象言語信号の符号化に失敗すると、オフターゲットとなり、語彙距離が近くなることが判明した。
多言語語彙構築のための言語認識語彙共有(LAVS)を提案する。
我々は11言語で多言語機械翻訳ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-18T12:43:31Z) - Improving Speech Recognition for Indic Languages using Language Model [0.0]
本稿では,言語モデル(LM)の適用が,インデックス言語の自動音声認識(ASR)システムの出力に与える影響について検討する。
We fine-tune wav2vec $2.0$ models for 18$ Indic languages and adjust the formula with language model training on text from various sources。
論文 参考訳(メタデータ) (2022-03-30T18:22:12Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Language Detection Engine for Multilingual Texting on Mobile Devices [0.415623340386296]
全世界で20億人以上のモバイルユーザーがソフトキーボードで複数の言語を入力している。
単言語キーボードでは、誤訂正された単語の38%が別の言語で有効である。
多言語タイピングのための高速で軽量で正確な言語検出エンジン(LDE)を提案する。
論文 参考訳(メタデータ) (2021-01-07T16:49:47Z) - edATLAS: An Efficient Disambiguation Algorithm for Texting in Languages
with Abugida Scripts [0.0]
アブティダ(abugida)は、各音節を単一の子音またはタイポグラフィーのリガチュアで表現する音素表記システムである。
本稿では, あいまいな表現アルゴリズムを提案し, バグダ記述システムを用いた2つの新しい入力方式でその有用性を示す。
ヒンディー語、ベンガル語、タイ語での入力速度は19.49%、25.13%、14.89%向上した。
論文 参考訳(メタデータ) (2021-01-05T03:16:34Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。