論文の概要: Improving Proper Noun Recognition in End-to-End ASR By Customization of
the MWER Loss Criterion
- arxiv url: http://arxiv.org/abs/2005.09756v1
- Date: Tue, 19 May 2020 21:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 15:02:16.158238
- Title: Improving Proper Noun Recognition in End-to-End ASR By Customization of
the MWER Loss Criterion
- Title(参考訳): mwer損失基準のカスタマイズによるエンドツーエンドasrの固有名詞認識の改善
- Authors: Cal Peyser, Tara N. Sainath, Golan Pundak
- Abstract要約: 固有名詞は、エンドツーエンド(E2E)自動音声認識(ASR)システムに挑戦する。
従来のASRとは異なり、E2Eシステムは、固有名詞の発音で特別に訓練できる明示的な発音モデルを持たない。
本稿では, 単語誤り率(MWER)訓練の最近の進歩を基盤として, 固有名詞認識を特に重視する2つの新しい損失基準を開発する。
- 参考スコア(独自算出の注目度): 33.043533068435366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proper nouns present a challenge for end-to-end (E2E) automatic speech
recognition (ASR) systems in that a particular name may appear only rarely
during training, and may have a pronunciation similar to that of a more common
word. Unlike conventional ASR models, E2E systems lack an explicit
pronounciation model that can be specifically trained with proper noun
pronounciations and a language model that can be trained on a large text-only
corpus. Past work has addressed this issue by incorporating additional training
data or additional models. In this paper, we instead build on recent advances
in minimum word error rate (MWER) training to develop two new loss criteria
that specifically emphasize proper noun recognition. Unlike past work on this
problem, this method requires no new data during training or external models
during inference. We see improvements ranging from 2% to 7% relative on several
relevant benchmarks.
- Abstract(参考訳): 固有名詞は、訓練中にのみ特定の名前が現れることが稀であり、より一般的な単語と同様の発音を持つという、エンドツーエンド(E2E)自動音声認識(ASR)システムへの挑戦を示す。
従来のASRとは異なり、E2Eシステムには、適切な名詞の発音で特別に訓練できる明示的な発音モデルと、大きなテキストのみのコーパスで訓練できる言語モデルがない。
過去の研究は、追加のトレーニングデータや追加モデルを組み込むことでこの問題に対処してきた。
そこで,本稿では,最小単語誤り率(MWER)トレーニングの最近の進歩に基づいて,固有名詞認識を特に重視する2つの新たな損失基準を開発する。
この問題に関する過去の研究とは異なり、この方法はトレーニング中や推論中の外部モデルに新しいデータを必要としない。
関連するベンチマークでは、2%から7%まで改善されています。
関連論文リスト
- An Effective Context-Balanced Adaptation Approach for Long-Tailed Speech Recognition [10.234673954430221]
周波数分布の異なる単語がモデルの性能に与える影響について検討する。
AISHELL-1ベンチマークデータセットで実施された一連の実験は、トレーニングコーパスのすべての語彙をコンテキストリストとして使用し、バランスの取れた目的と組み合わせることで、最高のパフォーマンスが得られることを示唆している。
論文 参考訳(メタデータ) (2024-09-10T12:52:36Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - The Gift of Feedback: Improving ASR Model Quality by Learning from User
Corrections through Federated Learning [20.643270151774182]
フェデレートラーニング(FL)を通じてデバイス上でのユーザ修正から継続的に学習することを目指す。
我々は、モデルがこれまで遭遇していなかった新しい用語をターゲットとして、長い尾の単語を学習し、破滅的な忘れ事をする手法を探究する。
実験により,提案手法は,言語分布全体の品質を保ちながら,新しい用語のモデル認識を改善することが確認された。
論文 参考訳(メタデータ) (2023-09-29T21:04:10Z) - Retraining-free Customized ASR for Enharmonic Words Based on a
Named-Entity-Aware Model and Phoneme Similarity Estimation [0.742779257315787]
本稿では,E2E-ASRモデルと音素類似度推定に基づくE2E-ASRの学習自由度向上手法を提案する。
実験の結果,提案手法は従来のE2E-ASRモデルと比較して平均35.7%向上することがわかった。
論文 参考訳(メタデータ) (2023-05-29T02:10:13Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - Learning Word-Level Confidence For Subword End-to-End ASR [48.09713798451474]
自動音声認識(ASR)のためのサブワードベースエンドツーエンド(E2E)モデルにおける単語レベルの信頼度推定の問題について検討する。
提案した信頼度モジュールは、デバイス上のE2Eモデルとサーバ上のハイブリッドモデルを組み合わせて、E2Eモデルの稀な単語認識問題に対処するモデル選択アプローチを可能にする。
論文 参考訳(メタデータ) (2021-03-11T15:03:33Z) - Class LM and word mapping for contextual biasing in End-to-End ASR [4.989480853499918]
近年、オールニューラル・エンド・ツー・エンド(E2E)ASRシステムは音声認識コミュニティに急速に関心を寄せている。
本稿では,コンテキスト認識型E2Eモデルの学習アルゴリズムを提案する。
E2Eモデルは発音辞書を必要としないが、既存の発音知識を利用して精度を向上させることは興味深い。
論文 参考訳(メタデータ) (2020-07-10T20:58:44Z) - Contextual RNN-T For Open Domain ASR [41.83409885125617]
自動音声認識(ASR)のためのエンドツーエンド(E2E)システムは、従来のハイブリッドASRシステムの個々のコンポーネントを1つのニューラルネットワークに混ぜる。
これは優れた利点があり、ペアオーディオとテキストのみを使用してシステムをトレーニングすることを制限する。
このため、E2Eモデルは、エンティティ名などのトレーニング中に頻繁に見られることのない稀な単語を正しく認識することが困難になる傾向にある。
本稿では,RNN-Tモデルに改良を加えて,これらの名前付きエンティティワードの性能向上を目的としたメタデータテキストの追加を可能にする。
論文 参考訳(メタデータ) (2020-06-04T04:37:03Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。