論文の概要: Improving accuracy of rare words for RNN-Transducer through unigram
shallow fusion
- arxiv url: http://arxiv.org/abs/2012.00133v1
- Date: Mon, 30 Nov 2020 22:06:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 14:38:12.288999
- Title: Improving accuracy of rare words for RNN-Transducer through unigram
shallow fusion
- Title(参考訳): unigram shallow fusionによるrnnトランスデューサ用レアワードの精度向上
- Authors: Vijay Ravi, Yile Gu, Ankur Gandhe, Ariya Rastrow, Linda Liu, Denis
Filimonov, Scott Novotney, Ivan Bulyko
- Abstract要約: RNN-Tの稀な単語を改善するために,単グラム浅層核融合(USF)を提案する。
本手法は, 一般的なテストセットの劣化を伴わずに, 稀な単語の3.7%のWER比で性能を向上できることを示す。
- 参考スコア(独自算出の注目度): 9.071295269523068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end automatic speech recognition (ASR) systems, such as recurrent
neural network transducer (RNN-T), have become popular, but rare word remains a
challenge. In this paper, we propose a simple, yet effective method called
unigram shallow fusion (USF) to improve rare words for RNN-T. In USF, we
extract rare words from RNN-T training data based on unigram count, and apply a
fixed reward when the word is encountered during decoding. We show that this
simple method can improve performance on rare words by 3.7% WER relative
without degradation on general test set, and the improvement from USF is
additive to any additional language model based rescoring. Then, we show that
the same USF does not work on conventional hybrid system. Finally, we reason
that USF works by fixing errors in probability estimates of words due to
Viterbi search used during decoding with subword-based RNN-T.
- Abstract(参考訳): recurrent neural network transducer (rnn-t) など、エンドツーエンドの自動音声認識 (asr) システムが普及しているが、稀な単語が課題となっている。
本稿では,rnn-tのレアワードを改善するために,unigram shallow fusion (usf) と呼ばれる単純かつ効果的な手法を提案する。
USFでは、ユニグラム数に基づいてRNN-T訓練データから稀な単語を抽出し、復号時に単語が遭遇した場合に一定の報酬を適用する。
本手法は,一般テストセットの劣化を伴わずに,レアワードのパフォーマンスを3.7%向上できることを示すとともに,usfによる改善は,追加言語モデルに基づくリコーリングに付加されることを示した。
その結果,USFは従来のハイブリッドシステムでは動作しないことがわかった。
最後に、サブワードベースのRNN-Tで復号する際に使用するビタビ探索による単語の確率推定における誤りを修正することでUSFが機能する理由について述べる。
関連論文リスト
- SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - Return of the RNN: Residual Recurrent Networks for Invertible Sentence
Embeddings [0.0]
本研究では、教師なし符号化タスクで訓練された残効再帰ネットワークを用いて、非可逆文埋め込みのための新しいモデルを提案する。
ニューラルネットワーク翻訳モデルに共通する確率的出力ではなく、回帰に基づく出力層を用いて入力シーケンスのワードベクトルを再構成する。
RNNはLSTMや2次最適化法などのメモリユニットを必要とすることを考えると、このモデルはADAMによる高精度かつ高速なトレーニングを実現している。
論文 参考訳(メタデータ) (2023-03-23T15:59:06Z) - Surrogate Gradient Spiking Neural Networks as Encoders for Large
Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。
彼らは音声コマンド認識タスクについて有望な結果を示した。
繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文 参考訳(メタデータ) (2022-12-01T12:36:26Z) - ngram-OAXE: Phrase-Based Order-Agnostic Cross Entropy for
Non-Autoregressive Machine Translation [51.06378042344563]
オートレグレッシブ翻訳(NAT)におけるマルチモーダリティの効果を改善できる新しい訓練用Oaxe損失が証明された
我々は、ngram 句間の並べ替えのみを許し、句内の単語順序の厳密な一致をいまだ必要とすることで oaxe を拡張する。
さらに分析したところ、ngram-oaxeは実際にngram句の翻訳を改善し、文構造をより良くモデル化してより流動的な翻訳を生成することがわかった。
論文 参考訳(メタデータ) (2022-10-08T11:39:15Z) - Improving Contextual Recognition of Rare Words with an Alternate
Spelling Prediction Model [0.0]
Earnings21データセットに付随するコンテキストバイアスリストをリリースします。
2つの異なる復号アルゴリズムに適用した浅層融合文脈偏差の計算結果を示す。
稀な単語のリコールを34.7%改善するスペル予測モデルを提案する。
論文 参考訳(メタデータ) (2022-09-02T19:30:16Z) - NFLAT: Non-Flat-Lattice Transformer for Chinese Named Entity Recognition [39.308634515653914]
我々は,計算コストとメモリコストを効果的に削減する新しい語彙拡張手法であるInterFormerを提唱する。
FLATと比較して「単語文字」と「単語」の不要な注意計算を減らす
これにより、メモリ使用量が約50%削減され、ネットワークトレーニングのためにより広範なレキシコンやより高いバッチを使用することができる。
論文 参考訳(メタデータ) (2022-05-12T01:55:37Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Deep Shallow Fusion for RNN-T Personalization [22.271012062526463]
我々は,レアなWordPiecesをモデル化するRNN-Tの能力を向上させる新しい手法を提案する。
これらの組み合わせにより15.4%~34.5%の単語誤り率改善が達成された。
論文 参考訳(メタデータ) (2020-11-16T07:13:58Z) - Taking Notes on the Fly Helps BERT Pre-training [94.43953312613577]
Takeing Notes on the Fly (TNF) は、事前トレーニング中にフライで稀な単語のメモを取り、次回発生するときにモデルがそれらを理解するのに役立つ。
TNFは、文中のまれな単語によって引き起こされる不適切な意味をカバーするために、クロス文情報を用いるので、より良いデータ利用を提供する。
論文 参考訳(メタデータ) (2020-08-04T11:25:09Z) - Subword RNNLM Approximations for Out-Of-Vocabulary Keyword Search [17.492336084190658]
音声キーワード検索では、このクエリは音声認識システムの訓練時に観察されない語彙外単語(OOV)を含むことができる。
サブワード言語モデル(LM)をファーストパス認識で使用することで、OOVワードを認識できるが、サブワードのn-gram LMでさえデータ間隔に悩まされる。
本稿では,従来のn-gramモデルとRNNLM近似を補間してOOV認識を改善することを提案する。
論文 参考訳(メタデータ) (2020-05-28T07:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。