論文の概要: Class LM and word mapping for contextual biasing in End-to-End ASR
- arxiv url: http://arxiv.org/abs/2007.05609v3
- Date: Mon, 10 Aug 2020 14:06:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 22:25:24.856903
- Title: Class LM and word mapping for contextual biasing in End-to-End ASR
- Title(参考訳): End-to-End ASRにおける文脈バイアスのためのクラスLMと単語マッピング
- Authors: Rongqing Huang, Ossama Abdel-hamid, Xinwei Li, Gunnar Evermann
- Abstract要約: 近年、オールニューラル・エンド・ツー・エンド(E2E)ASRシステムは音声認識コミュニティに急速に関心を寄せている。
本稿では,コンテキスト認識型E2Eモデルの学習アルゴリズムを提案する。
E2Eモデルは発音辞書を必要としないが、既存の発音知識を利用して精度を向上させることは興味深い。
- 参考スコア(独自算出の注目度): 4.989480853499918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, all-neural, end-to-end (E2E) ASR systems gained rapid
interest in the speech recognition community. They convert speech input to text
units in a single trainable Neural Network model. In ASR, many utterances
contain rich named entities. Such named entities may be user or location
specific and they are not seen during training. A single model makes it
inflexible to utilize dynamic contextual information during inference. In this
paper, we propose to train a context aware E2E model and allow the beam search
to traverse into the context FST during inference. We also propose a simple
method to adjust the cost discrepancy between the context FST and the base
model. This algorithm is able to reduce the named entity utterance WER by 57%
with little accuracy degradation on regular utterances. Although an E2E model
does not need pronunciation dictionary, it's interesting to make use of
existing pronunciation knowledge to improve accuracy. In this paper, we propose
an algorithm to map the rare entity words to common words via pronunciation and
treat the mapped words as an alternative form to the original word during
recognition. This algorithm further reduces the WER on the named entity
utterances by another 31%.
- Abstract(参考訳): 近年、オールニューラル・エンド・ツー・エンド(E2E)ASRシステムは音声認識コミュニティに急速に関心を寄せている。
音声入力を単一のトレーニング可能なニューラルネットワークモデルでテキスト単位に変換する。
ASRでは、多くの発話はリッチな名前のエンティティを含む。
このような名前付きエンティティは、ユーザまたはロケーション固有のもので、トレーニング中に見ることはできない。
単一のモデルでは、推論中に動的文脈情報を利用できなくなる。
本稿では,コンテキスト認識型E2Eモデルをトレーニングし,推論中にビーム探索がコンテキストFSTに遷移できるようにすることを提案する。
また、コンテキストFSTとベースモデルとのコスト差を調整するための簡易な手法を提案する。
このアルゴリズムは、通常の発話の精度を小さくして、名前付きエンティティ発話WERを57%削減することができる。
E2Eモデルは発音辞書を必要としないが、既存の発音知識を利用して精度を向上させることは興味深い。
本稿では,レアエンティティの単語を発音を通じて共通語にマップし,そのマッピングされた単語を認識中の元の単語の代替形として扱うアルゴリズムを提案する。
このアルゴリズムは、名前付きエンティティ発話のWERをさらに31%削減する。
関連論文リスト
- Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation [27.057810339120664]
文脈認識型ASRモデルを改善するための2つの手法を提案する。
LibriSpeechでは, バイアスや浅い融合に比べて, 単語誤り率を60%, 25%削減する。
SPGISpeechと実世界のデータセットConECでは、ベースラインよりも優れた改善が得られます。
論文 参考訳(メタデータ) (2024-07-14T19:32:33Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - Retraining-free Customized ASR for Enharmonic Words Based on a
Named-Entity-Aware Model and Phoneme Similarity Estimation [0.742779257315787]
本稿では,E2E-ASRモデルと音素類似度推定に基づくE2E-ASRの学習自由度向上手法を提案する。
実験の結果,提案手法は従来のE2E-ASRモデルと比較して平均35.7%向上することがわかった。
論文 参考訳(メタデータ) (2023-05-29T02:10:13Z) - DTW-SiameseNet: Dynamic Time Warped Siamese Network for Mispronunciation
Detection and Correction [1.8322859214908722]
本稿では,TTS誤発音検出と修正のタスクのための,高精度でPDA対応の発音学習フレームワークを提案する。
また,三重項損失を伴う動的時間ワープ(DTW)のためのメトリクス学習を用いたDTW-SiameseNetという,新しい誤発音検出モデルを提案する。
人間の評価から,提案手法は音素ベースや音声ベースラインに比べて平均6%の発音精度が向上することが示された。
論文 参考訳(メタデータ) (2023-03-01T01:53:11Z) - Improving Contextual Recognition of Rare Words with an Alternate
Spelling Prediction Model [0.0]
Earnings21データセットに付随するコンテキストバイアスリストをリリースします。
2つの異なる復号アルゴリズムに適用した浅層融合文脈偏差の計算結果を示す。
稀な単語のリコールを34.7%改善するスペル予測モデルを提案する。
論文 参考訳(メタデータ) (2022-09-02T19:30:16Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Improving Proper Noun Recognition in End-to-End ASR By Customization of
the MWER Loss Criterion [33.043533068435366]
固有名詞は、エンドツーエンド(E2E)自動音声認識(ASR)システムに挑戦する。
従来のASRとは異なり、E2Eシステムは、固有名詞の発音で特別に訓練できる明示的な発音モデルを持たない。
本稿では, 単語誤り率(MWER)訓練の最近の進歩を基盤として, 固有名詞認識を特に重視する2つの新しい損失基準を開発する。
論文 参考訳(メタデータ) (2020-05-19T21:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。