論文の概要: A Density Ratio Approach to Language Model Fusion in End-To-End
Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2002.11268v3
- Date: Fri, 28 Feb 2020 01:40:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 15:26:38.302929
- Title: A Density Ratio Approach to Language Model Fusion in End-To-End
Automatic Speech Recognition
- Title(参考訳): エンドツーエンド自動音声認識における言語モデル融合に対する密度比アプローチ
- Authors: Erik McDermott, Hasim Sak, Ehsan Variani
- Abstract要約: 本稿では、外部言語モデル(LM)を、音声認識(ASR)のためのエンドツーエンドモデルに統合するための密度比アプローチについて述べる。
RNN-T ASRモデルは、Voice Searchデータに一般化できるため、YouTubeからペア化されたオーディオと転写データに基づいて訓練された。
- 参考スコア(独自算出の注目度): 9.184319271887531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article describes a density ratio approach to integrating external
Language Models (LMs) into end-to-end models for Automatic Speech Recognition
(ASR). Applied to a Recurrent Neural Network Transducer (RNN-T) ASR model
trained on a given domain, a matched in-domain RNN-LM, and a target domain
RNN-LM, the proposed method uses Bayes' Rule to define RNN-T posteriors for the
target domain, in a manner directly analogous to the classic hybrid model for
ASR based on Deep Neural Networks (DNNs) or LSTMs in the Hidden Markov Model
(HMM) framework (Bourlard & Morgan, 1994). The proposed approach is evaluated
in cross-domain and limited-data scenarios, for which a significant amount of
target domain text data is used for LM training, but only limited (or no)
{audio, transcript} training data pairs are used to train the RNN-T.
Specifically, an RNN-T model trained on paired audio & transcript data from
YouTube is evaluated for its ability to generalize to Voice Search data. The
Density Ratio method was found to consistently outperform the dominant approach
to LM and end-to-end ASR integration, Shallow Fusion.
- Abstract(参考訳): 本稿では、外部言語モデル(LM)を、音声認識(ASR)のためのエンドツーエンドモデルに統合するための密度比アプローチについて述べる。
ある領域で訓練されたリカレントニューラルネットワークトランスデューサ(rnn-t)asrモデル、マッチングされたインドメインrnn-lm、およびターゲットドメインrnn-lmに適用し、提案手法はターゲット領域のrnn-t後方を定義するためにベイズの規則を用いて、隠れマルコフモデル(bourlard & morgan, 1994)フレームワークにおけるディープニューラルネットワーク(dnns)またはlstmに基づくasrの古典的なハイブリッドモデルと直接的に類似している。
提案手法はクロスドメインおよび限定データシナリオで評価され,ターゲットドメインのテキストデータがかなりの量のLMトレーニングに使用されるが,RNN-Tのトレーニングには限られた(あるいはノー) {audio, transcript} のトレーニングデータペアのみを使用する。
具体的には、YouTubeのペア音声と転写データに基づいてトレーニングされたRNN-Tモデルを、Voice Searchデータに一般化する能力について評価する。
密度比法は、LMに対する支配的なアプローチとエンドツーエンドのASR統合であるShallow Fusionよりも一貫して優れていた。
関連論文リスト
- Mask The Bias: Improving Domain-Adaptive Generalization of CTC-based ASR
with Internal Language Model Estimation [14.840612036671734]
自己回帰モデルに対するこのバイアスを軽減するために、内部言語モデル推定(ILME)が提案されている。
CTCに基づくASRモデルのための新しいILME手法を提案する。
本手法は、内部LMの擬似ログ類似度を推定するために、音声タイムステップを反復的にマスクする。
論文 参考訳(メタデータ) (2023-05-05T20:35:42Z) - Return of the RNN: Residual Recurrent Networks for Invertible Sentence
Embeddings [0.0]
本研究では、教師なし符号化タスクで訓練された残効再帰ネットワークを用いて、非可逆文埋め込みのための新しいモデルを提案する。
ニューラルネットワーク翻訳モデルに共通する確率的出力ではなく、回帰に基づく出力層を用いて入力シーケンスのワードベクトルを再構成する。
RNNはLSTMや2次最適化法などのメモリユニットを必要とすることを考えると、このモデルはADAMによる高精度かつ高速なトレーニングを実現している。
論文 参考訳(メタデータ) (2023-03-23T15:59:06Z) - Low-Resource Music Genre Classification with Cross-Modal Neural Model
Reprogramming [129.4950757742912]
ニューラルモデル再プログラミング(NMR)の概念に基づく低リソース(音楽)分類のための事前学習モデルを活用する新しい手法を提案する。
NMRは、凍結した事前学習モデルの入力を変更することにより、ソースドメインからターゲットドメインへの事前学習モデルの再取得を目指している。
実験結果から,大規模データセットに事前学習したニューラルモデルは,この再プログラミング手法を用いて,音楽ジャンルの分類に成功できることが示唆された。
論文 参考訳(メタデータ) (2022-11-02T17:38:33Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Adaptive Discounting of Implicit Language Models in RNN-Transducers [33.63456351411599]
RNN-Tアーキテクチャでは,軽量適応型LMディスカウント技術が利用できることを示す。
WERとレアワードPERの最大4%と14%の相対的削減を,会話型,コード混在型のHindi- English ASRタスクで達成した。
論文 参考訳(メタデータ) (2022-02-21T08:44:56Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Fast Text-Only Domain Adaptation of RNN-Transducer Prediction Network [0.0]
RNNトランスデューサモデルは,少量のテキストデータのみを用いて,新しいドメインに効果的に適応できることを示した。
本稿では,複数のASR評価タスクを用いて,目標タスクWERにおける相対的な10〜45%の利得が得られる方法を示す。
論文 参考訳(メタデータ) (2021-04-22T15:21:41Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition [39.497407288772386]
リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは、エンドツーエンドの自動音声認識研究において、新たなトレンドとなっている。
本研究では、外部アライメントを活用してRNN-Tモデルをシードする。
エンコーダ事前学習(encoder pre-training)と全ネットワーク事前学習( whole-network pre-training)と呼ばれる2つの異なる事前学習ソリューションが検討されている。
論文 参考訳(メタデータ) (2020-05-01T19:00:57Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。