論文の概要: Adaptive Discounting of Implicit Language Models in RNN-Transducers
- arxiv url: http://arxiv.org/abs/2203.02317v1
- Date: Mon, 21 Feb 2022 08:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-13 15:30:43.163108
- Title: Adaptive Discounting of Implicit Language Models in RNN-Transducers
- Title(参考訳): rnn-transducersにおける暗黙言語モデルの適応的割引
- Authors: Vinit Unni, Shreya Khare, Ashish Mittal, Preethi Jyothi, Sunita
Sarawagi and Samarth Bharadwaj
- Abstract要約: RNN-Tアーキテクチャでは,軽量適応型LMディスカウント技術が利用できることを示す。
WERとレアワードPERの最大4%と14%の相対的削減を,会話型,コード混在型のHindi- English ASRタスクで達成した。
- 参考スコア(独自算出の注目度): 33.63456351411599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RNN-Transducer (RNN-T) models have become synonymous with streaming
end-to-end ASR systems. While they perform competitively on a number of
evaluation categories, rare words pose a serious challenge to RNN-T models. One
main reason for the degradation in performance on rare words is that the
language model (LM) internal to RNN-Ts can become overconfident and lead to
hallucinated predictions that are acoustically inconsistent with the underlying
speech. To address this issue, we propose a lightweight adaptive LM discounting
technique AdaptLMD, that can be used with any RNN-T architecture without
requiring any external resources or additional parameters. AdaptLMD uses a
two-pronged approach: 1) Randomly mask the prediction network output to
encourage the RNN-T to not be overly reliant on it's outputs. 2) Dynamically
choose when to discount the implicit LM (ILM) based on rarity of recently
predicted tokens and divergence between ILM and implicit acoustic model (IAM)
scores. Comparing AdaptLMD to a competitive RNN-T baseline, we obtain up to 4%
and 14% relative reductions in overall WER and rare word PER, respectively, on
a conversational, code-mixed Hindi-English ASR task.
- Abstract(参考訳): RNN-Transducer(RNN-T)モデルは、ストリーミングエンドツーエンドのASRシステムと同義語となっている。
多くの評価カテゴリで競合するが、レアワードはRNN-Tモデルに深刻な課題をもたらす。
稀な単語の性能低下の主な理由は、RNN-Tの内部の言語モデル(LM)が過度に信頼され、基礎となる音声と音響的に矛盾する幻覚予測につながることである。
この問題に対処するために、外部リソースや追加パラメータを必要とせずに任意のRNN-Tアーキテクチャで使用できる軽量適応LMディスカウント手法AdaptLMDを提案する。
AdaptLMDは2段階のアプローチを採用している。
1) ランダムに予測ネットワーク出力を隠蔽し、RNN-Tが出力に過度に依存しないように促す。
2) 最近予測されたトークンの希薄さとILMと暗黙的音響モデル(IAM)スコアのばらつきに基づき,暗黙的LM(ILM)をいつ割引するかを動的に選択する。
AdaptLMDを競合するRNN-Tベースラインと比較すると,会話型,コード混在型Hindi- English ASRタスクにおいて,WER全体で最大4%,レアワードPERが14%減少する。
関連論文リスト
- Advancing Regular Language Reasoning in Linear Recurrent Neural Networks [56.11830645258106]
本稿では,リニアリカレントニューラルネットワーク(LRNN)がトレーニングシーケンスに隠された規則を学習できるかを検討する。
ブロック対角および入力依存遷移行列を備えた新しいLRNNを提案する。
実験結果から,提案モデルが正規言語タスクに対して長さ外挿を行うことができる唯一のLRNNであることが示唆された。
論文 参考訳(メタデータ) (2023-09-14T03:36:01Z) - Multi-blank Transducers for Speech Recognition [49.6154259349501]
提案手法では,出力時に2つ以上の入力フレームを消費する空白記号を新たに導入する。
付加記号を大きなブランク、マルチブランクRNN-Tと呼ぶ。
複数の言語とデータセットの実験により、マルチブランクRNN-T法は、相対速度が+90%/+139%以上になることを示した。
論文 参考訳(メタデータ) (2022-11-04T16:24:46Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Exploiting Low-Rank Tensor-Train Deep Neural Networks Based on
Riemannian Gradient Descent With Illustrations of Speech Processing [74.31472195046099]
我々は、低ランクテンソルトレイン深層ニューラルネットワーク(TT-DNN)を用いて、エンドツーエンドのディープラーニングパイプライン、すなわちLR-TT-DNNを構築する。
LR-TT-DNNと畳み込みニューラルネットワーク(CNN)を組み合わせたハイブリッドモデルを構築し、性能を向上する。
我々の実証的な証拠は、モデルパラメータが少ないLR-TT-DNNとCNN+(LR-TT-DNN)モデルが、TT-DNNとCNN+(LR-TT-DNN)モデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-03-11T15:55:34Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - DNN-Based Semantic Model for Rescoring N-best Speech Recognition List [8.934497552812012]
自動音声認識(ASR)システムの単語誤り率(WER)は、トレーニングと騒音等によるテスト条件とのミスマッチが発生した場合に増加する。
本研究の目的は、歪み音の特徴を補うための長期意味関係をモデル化することで、ASRを改善することである。
論文 参考訳(メタデータ) (2020-11-02T13:50:59Z) - Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition [39.497407288772386]
リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは、エンドツーエンドの自動音声認識研究において、新たなトレンドとなっている。
本研究では、外部アライメントを活用してRNN-Tモデルをシードする。
エンコーダ事前学習(encoder pre-training)と全ネットワーク事前学習( whole-network pre-training)と呼ばれる2つの異なる事前学習ソリューションが検討されている。
論文 参考訳(メタデータ) (2020-05-01T19:00:57Z) - Distance and Equivalence between Finite State Machines and Recurrent
Neural Networks: Computational results [0.348097307252416]
訓練されたRNN言語モデルから有限状態マシンベースモデルを抽出する問題に関するいくつかの結果を示す。
我々の3-SATによる削減技術は、後者の事実を他のRNNアーキテクチャに容易に一般化できるようにする。
論文 参考訳(メタデータ) (2020-04-01T14:48:59Z) - A Density Ratio Approach to Language Model Fusion in End-To-End
Automatic Speech Recognition [9.184319271887531]
本稿では、外部言語モデル(LM)を、音声認識(ASR)のためのエンドツーエンドモデルに統合するための密度比アプローチについて述べる。
RNN-T ASRモデルは、Voice Searchデータに一般化できるため、YouTubeからペア化されたオーディオと転写データに基づいて訓練された。
論文 参考訳(メタデータ) (2020-02-26T02:53:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。