論文の概要: A Likelihood Ratio based Domain Adaptation Method for E2E Models
- arxiv url: http://arxiv.org/abs/2201.03655v1
- Date: Mon, 10 Jan 2022 21:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 20:54:01.717419
- Title: A Likelihood Ratio based Domain Adaptation Method for E2E Models
- Title(参考訳): E2Eモデルの類似率に基づく領域適応法
- Authors: Chhavi Choudhury, Ankur Gandhe, Xiaohan Ding, Ivan Bulyko
- Abstract要約: Recurrent Neural Networks Transducer (RNN-T)のようなエンドツーエンド(E2E)自動音声認識モデルは、音声アシスタントのようなASRアプリケーションをストリーミングするための一般的な選択肢になりつつある。
E2Eモデルはトレーニング対象のトレーニングデータの表現を学習するのに非常に効果的だが、未確認領域での精度は依然として難しい問題である。
本研究では、テキストデータソースを活用してRNN-Tモデルを新しいドメインやエンティティに適用する、確率比を用いたコンテキストバイアス手法について検討する。
- 参考スコア(独自算出の注目度): 10.510472957585646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end (E2E) automatic speech recognition models like Recurrent Neural
Networks Transducer (RNN-T) are becoming a popular choice for streaming ASR
applications like voice assistants. While E2E models are very effective at
learning representation of the training data they are trained on, their
accuracy on unseen domains remains a challenging problem. Additionally, these
models require paired audio and text training data, are computationally
expensive and are difficult to adapt towards the fast evolving nature of
conversational speech. In this work, we explore a contextual biasing approach
using likelihood-ratio that leverages text data sources to adapt RNN-T model to
new domains and entities. We show that this method is effective in improving
rare words recognition, and results in a relative improvement of 10% in 1-best
word error rate (WER) and 10% in n-best Oracle WER (n=8) on multiple
out-of-domain datasets without any degradation on a general dataset. We also
show that complementing the contextual biasing adaptation with adaptation of a
second-pass rescoring model gives additive WER improvements.
- Abstract(参考訳): エンドツーエンド(e2e)の自動音声認識モデルであるrecurrent neural networks transducer(rnn-t)は、音声アシスタントのようなストリーミングasrアプリケーションで人気を集めている。
E2Eモデルはトレーニング対象のトレーニングデータの表現を学習するのに非常に効果的だが、未確認領域での精度は依然として難しい問題である。
さらに、これらのモデルはペア音声とテキストの訓練データを必要とし、計算コストが高く、会話音声の急速な進化に適応するのは難しい。
本研究では、テキストデータソースを活用してRNN-Tモデルを新しいドメインやエンティティに適用する確率比を用いたコンテキストバイアス手法を提案する。
本手法は, 単語認識の改善に有効であることを示すとともに, 一般データセットの劣化を伴わずに複数のドメイン外データセット上での1-best単語誤り率 (WER) が10%, n-bestOracle WER (n=8) が10%向上したことを示す。
また, 文脈バイアス適応と第2パス復元モデルの適応を補完することにより, 付加的な wer が改善されることを示した。
関連論文リスト
- Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - Decoupled Structure for Improved Adaptability of End-to-End Models [16.195423291103975]
本稿では,アテンションベースエンコーダデコーダ(Decoupled-AED)とニューラルトランスデューサ(Decoupled-Transducer)モデルのためのデカップリング構造を提案する。
E2Eモデルデコーダ(または予測ネットワーク)の音響的および言語的部分は分離され、言語的コンポーネントは置換可能である。
リブリ100hコーパスで訓練されたE2E ASRモデルの実験により、提案された分離された構造は15.1%と17.2%の相対的な単語誤り率の減少を与えた。
論文 参考訳(メタデータ) (2023-08-25T12:31:12Z) - Using External Off-Policy Speech-To-Text Mappings in Contextual
End-To-End Automated Speech Recognition [19.489794740679024]
本稿では,外部知識の活用の可能性について検討する。
提案手法では,音声の音声埋め込みと意味的テキスト埋め込みを併用して,ASRに偏りを生じさせる。
LibiriSpeechと社内音声アシスタント/検索データセットの実験により、提案手法により、最大1KのGPU時間でドメイン適応時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-01-06T22:32:50Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Fast Text-Only Domain Adaptation of RNN-Transducer Prediction Network [0.0]
RNNトランスデューサモデルは,少量のテキストデータのみを用いて,新しいドメインに効果的に適応できることを示した。
本稿では,複数のASR評価タスクを用いて,目標タスクWERにおける相対的な10〜45%の利得が得られる方法を示す。
論文 参考訳(メタデータ) (2021-04-22T15:21:41Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Developing RNN-T Models Surpassing High-Performance Hybrid Models with
Customization Capability [46.73349163361723]
リカレントニューラルネットワークトランスデューサ(Recurrent Neural Network Transducer, RNN-T)は、音声認識のための一般的なハイブリッドモデルを置き換える、有望なエンドツーエンド(E2E)モデルである。
トレーニング中のGPUメモリ消費を低減したRNN-Tモデルの最近の開発について述べる。
本稿では,RNN-Tモデルを新しいドメインにカスタマイズする方法について検討する。
論文 参考訳(メタデータ) (2020-07-30T02:35:20Z) - Contextual RNN-T For Open Domain ASR [41.83409885125617]
自動音声認識(ASR)のためのエンドツーエンド(E2E)システムは、従来のハイブリッドASRシステムの個々のコンポーネントを1つのニューラルネットワークに混ぜる。
これは優れた利点があり、ペアオーディオとテキストのみを使用してシステムをトレーニングすることを制限する。
このため、E2Eモデルは、エンティティ名などのトレーニング中に頻繁に見られることのない稀な単語を正しく認識することが困難になる傾向にある。
本稿では,RNN-Tモデルに改良を加えて,これらの名前付きエンティティワードの性能向上を目的としたメタデータテキストの追加を可能にする。
論文 参考訳(メタデータ) (2020-06-04T04:37:03Z) - Hybrid Generative-Retrieval Transformers for Dialogue Domain Adaptation [77.62366712130196]
マルチドメイン MetaLWOz データセットに微調整した GPT-2 に基づくハイブリッド生成・検索モデル DSTC8 の高速領域適応タスクにおける入賞条件について述べる。
提案モデルでは,MetaLWOz上の解析論理をフォールバックとして使用し,人間の評価におけるSoTA(第2位システムよりも4%向上)と,未知のMultiWOZデータセットに適応した競合一般化性能を実現する。
論文 参考訳(メタデータ) (2020-03-03T18:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。