論文の概要: Deep Shallow Fusion for RNN-T Personalization
- arxiv url: http://arxiv.org/abs/2011.07754v1
- Date: Mon, 16 Nov 2020 07:13:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-09-25 00:42:43.554131
- Title: Deep Shallow Fusion for RNN-T Personalization
- Title(参考訳): RNN-Tパーソナライゼーションのための深浅核融合
- Authors: Duc Le, Gil Keren, Julian Chan, Jay Mahadeokar, Christian Fuegen,
Michael L. Seltzer
- Abstract要約: 我々は,レアなWordPiecesをモデル化するRNN-Tの能力を向上させる新しい手法を提案する。
これらの組み合わせにより15.4%~34.5%の単語誤り率改善が達成された。
- 参考スコア(独自算出の注目度): 22.271012062526463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end models in general, and Recurrent Neural Network Transducer (RNN-T)
in particular, have gained significant traction in the automatic speech
recognition community in the last few years due to their simplicity,
compactness, and excellent performance on generic transcription tasks. However,
these models are more challenging to personalize compared to traditional hybrid
systems due to the lack of external language models and difficulties in
recognizing rare long-tail words, specifically entity names. In this work, we
present novel techniques to improve RNN-T's ability to model rare WordPieces,
infuse extra information into the encoder, enable the use of alternative
graphemic pronunciations, and perform deep fusion with personalized language
models for more robust biasing. We show that these combined techniques result
in 15.4%-34.5% relative Word Error Rate improvement compared to a strong RNN-T
baseline which uses shallow fusion and text-to-speech augmentation. Our work
helps push the boundary of RNN-T personalization and close the gap with hybrid
systems on use cases where biasing and entity recognition are crucial.
- Abstract(参考訳): エンド・ツー・エンドモデルやリカレントニューラルネットワークトランスデューサ(rnn-t)は、そのシンプルさ、コンパクト性、汎用的な書き起こしタスクにおける優れた性能により、ここ数年で音声認識コミュニティで大きな注目を集めている。
しかしながら、これらのモデルは、外部言語モデルの欠如と稀な長尾語、特にエンティティ名を認識することの難しさにより、従来のハイブリッドシステムと比較してパーソナライズが困難である。
本研究では,レアなWordPiecesをモデル化し,エンコーダに余分な情報を注入し,代用文法の発音を有効にし,より堅牢なバイアス付けのためにパーソナライズされた言語モデルと深く融合する手法を提案する。
これらの組み合わせによって単語誤り率を15.4%-34.5%向上させるのに対し、浅い融合とテキスト音声強調を用いたRNN-Tベースラインは強い。
我々の研究は、RNN-Tのパーソナライズの境界を押し上げ、バイアスやエンティティ認識が不可欠であるユースケースにおけるハイブリッドシステムとのギャップを埋めるのに役立ちます。
関連論文リスト
- Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - LongFNT: Long-form Speech Recognition with Factorized Neural Transducer [64.75547712366784]
文レベルの長文特徴を語彙予測器の出力と直接融合するLongFNT-Textアーキテクチャを提案する。
また,LongFNT法の有効性を,相対単語誤り率(WER)が19%,GigaSpeechコーパスが12%,LongFNT法が19%であった。
論文 参考訳(メタデータ) (2022-11-17T08:48:27Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Cascade RNN-Transducer: Syllable Based Streaming On-device Mandarin
Speech Recognition with a Syllable-to-Character Converter [10.262490936452688]
本稿では,RNN-Tの言語モデリング能力を向上させるために,新しいカスケードRNN-T手法を提案する。
いくつかの重要なトリックを導入することで、カスケードRNN-Tアプローチは、いくつかのマンダリンテストセットにおいて、文字ベースのRNN-Tを大きなマージンで上回る。
論文 参考訳(メタデータ) (2020-11-17T06:42:47Z) - Improved Neural Language Model Fusion for Streaming Recurrent Neural
Network Transducer [28.697119605752643]
リカレントニューラルネットワークトランスデューサ(RNN-T)は暗黙のニューラルネットワーク言語モデル(NNLM)を備えており、トレーニング中に不適切なテキストデータを容易に活用できない。
従来の研究では、この弱点に対処するため、外部NNLMをエンドツーエンドのASRに組み込む様々な融合手法が提案されている。
トレーニング時間と推論時間の両方において、RNN-Tが外部NNLMを活用できるように、これらの手法の拡張を提案する。
論文 参考訳(メタデータ) (2020-10-26T20:10:12Z) - Developing RNN-T Models Surpassing High-Performance Hybrid Models with
Customization Capability [46.73349163361723]
リカレントニューラルネットワークトランスデューサ(Recurrent Neural Network Transducer, RNN-T)は、音声認識のための一般的なハイブリッドモデルを置き換える、有望なエンドツーエンド(E2E)モデルである。
トレーニング中のGPUメモリ消費を低減したRNN-Tモデルの最近の開発について述べる。
本稿では,RNN-Tモデルを新しいドメインにカスタマイズする方法について検討する。
論文 参考訳(メタデータ) (2020-07-30T02:35:20Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z) - Contextual RNN-T For Open Domain ASR [41.83409885125617]
自動音声認識(ASR)のためのエンドツーエンド(E2E)システムは、従来のハイブリッドASRシステムの個々のコンポーネントを1つのニューラルネットワークに混ぜる。
これは優れた利点があり、ペアオーディオとテキストのみを使用してシステムをトレーニングすることを制限する。
このため、E2Eモデルは、エンティティ名などのトレーニング中に頻繁に見られることのない稀な単語を正しく認識することが困難になる傾向にある。
本稿では,RNN-Tモデルに改良を加えて,これらの名前付きエンティティワードの性能向上を目的としたメタデータテキストの追加を可能にする。
論文 参考訳(メタデータ) (2020-06-04T04:37:03Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - Recognizing Long Grammatical Sequences Using Recurrent Networks
Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。
RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。
これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。
本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文 参考訳(メタデータ) (2020-04-04T14:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。