論文の概要: Integrating Text Inputs For Training and Adapting RNN Transducer ASR
Models
- arxiv url: http://arxiv.org/abs/2202.13155v1
- Date: Sat, 26 Feb 2022 15:03:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 17:11:46.170111
- Title: Integrating Text Inputs For Training and Adapting RNN Transducer ASR
Models
- Title(参考訳): RNNトランスデューサASRモデルの学習と適応のためのテキスト入力の統合
- Authors: Samuel Thomas, Brian Kingsbury, George Saon, Hong-Kwang J. Kuo
- Abstract要約: 本稿では,E2E ASRモデルのための新しいテキスト表現とトレーニングフレームワークを提案する。
トレーニングされたRNNトランスデューサ(RNN-T)モデルの内部LMコンポーネントは、テキストのみのデータに効果的に適用可能であることを示す。
- 参考スコア(独自算出の注目度): 29.256853083988634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared to hybrid automatic speech recognition (ASR) systems that use a
modular architecture in which each component can be independently adapted to a
new domain, recent end-to-end (E2E) ASR system are harder to customize due to
their all-neural monolithic construction. In this paper, we propose a novel
text representation and training framework for E2E ASR models. With this
approach, we show that a trained RNN Transducer (RNN-T) model's internal LM
component can be effectively adapted with text-only data. An RNN-T model
trained using both speech and text inputs improves over a baseline model
trained on just speech with close to 13% word error rate (WER) reduction on the
Switchboard and CallHome test sets of the NIST Hub5 2000 evaluation. The
usefulness of the proposed approach is further demonstrated by customizing this
general purpose RNN-T model to three separate datasets. We observe 20-45%
relative word error rate (WER) reduction in these settings with this novel LM
style customization technique using only unpaired text data from the new
domains.
- Abstract(参考訳): 各コンポーネントが独立して新しいドメインに適応できるモジュールアーキテクチャを用いたハイブリッド自動音声認識(ASR)システムと比較して、最近のエンドツーエンド(E2E)ASRシステムは、全神経モノリシックな構成のためカスタマイズが困難である。
本稿では,E2E ASRモデルのための新しいテキスト表現とトレーニングフレームワークを提案する。
提案手法では,RNNトランスデューサ(RNN-T)モデルの内部LM成分をテキストのみのデータに効果的に適用可能であることを示す。
音声入力とテキスト入力の両方を用いて訓練されたRNN-Tモデルは,NIST Hub5 2000 評価の Switchboard および CallHome テストセットにおいて,13% の単語誤り率 (WER) で訓練されたベースラインモデルよりも改善される。
この汎用RNN-Tモデルを3つの異なるデータセットにカスタマイズすることで,提案手法の有用性をさらに実証する。
これらの設定で20~45%の相対単語誤り率(wer)削減を観測し,新しいドメインからのテキストデータのみを用いたlmスタイルのカスタマイズ手法を提案する。
関連論文リスト
- Text-only domain adaptation for end-to-end ASR using integrated
text-to-mel-spectrogram generator [17.44686265224974]
本稿では, テキストのみのデータ, あるいは混在した音声データに基づいて, エンドツーエンドの自動音声認識(ASR)システムを提案する。
提案手法は,書き起こし音声のみを訓練したシステムと比較して,ASRの精度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-02-27T18:47:55Z) - Multi-blank Transducers for Speech Recognition [49.6154259349501]
提案手法では,出力時に2つ以上の入力フレームを消費する空白記号を新たに導入する。
付加記号を大きなブランク、マルチブランクRNN-Tと呼ぶ。
複数の言語とデータセットの実験により、マルチブランクRNN-T法は、相対速度が+90%/+139%以上になることを示した。
論文 参考訳(メタデータ) (2022-11-04T16:24:46Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Contextual Adapters for Personalized Speech Recognition in Neural
Transducers [16.628830937429388]
ニューラルトランスデューサに基づくASRモデルにおいて,パーソナライズのための学習用ニューラルネットワークアダプタを提案する。
我々のアプローチは、ユーザ定義された単語に偏りを持つだけでなく、事前訓練されたASRモデルで作業するための柔軟性も備えています。
論文 参考訳(メタデータ) (2022-05-26T22:46:28Z) - A Likelihood Ratio based Domain Adaptation Method for E2E Models [10.510472957585646]
Recurrent Neural Networks Transducer (RNN-T)のようなエンドツーエンド(E2E)自動音声認識モデルは、音声アシスタントのようなASRアプリケーションをストリーミングするための一般的な選択肢になりつつある。
E2Eモデルはトレーニング対象のトレーニングデータの表現を学習するのに非常に効果的だが、未確認領域での精度は依然として難しい問題である。
本研究では、テキストデータソースを活用してRNN-Tモデルを新しいドメインやエンティティに適用する、確率比を用いたコンテキストバイアス手法について検討する。
論文 参考訳(メタデータ) (2022-01-10T21:22:39Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Fast Text-Only Domain Adaptation of RNN-Transducer Prediction Network [0.0]
RNNトランスデューサモデルは,少量のテキストデータのみを用いて,新しいドメインに効果的に適応できることを示した。
本稿では,複数のASR評価タスクを用いて,目標タスクWERにおける相対的な10〜45%の利得が得られる方法を示す。
論文 参考訳(メタデータ) (2021-04-22T15:21:41Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - Contextual RNN-T For Open Domain ASR [41.83409885125617]
自動音声認識(ASR)のためのエンドツーエンド(E2E)システムは、従来のハイブリッドASRシステムの個々のコンポーネントを1つのニューラルネットワークに混ぜる。
これは優れた利点があり、ペアオーディオとテキストのみを使用してシステムをトレーニングすることを制限する。
このため、E2Eモデルは、エンティティ名などのトレーニング中に頻繁に見られることのない稀な単語を正しく認識することが困難になる傾向にある。
本稿では,RNN-Tモデルに改良を加えて,これらの名前付きエンティティワードの性能向上を目的としたメタデータテキストの追加を可能にする。
論文 参考訳(メタデータ) (2020-06-04T04:37:03Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。