論文の概要: Fast Text-Only Domain Adaptation of RNN-Transducer Prediction Network
- arxiv url: http://arxiv.org/abs/2104.11127v1
- Date: Thu, 22 Apr 2021 15:21:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 13:47:55.882870
- Title: Fast Text-Only Domain Adaptation of RNN-Transducer Prediction Network
- Title(参考訳): RNN-Transducer予測ネットワークのテキストオンリー領域適応
- Authors: Janne Pylkk\"onen (1), Antti Ukkonen (1 and 2), Juho Kilpikoski (1),
Samu Tamminen (1), Hannes Heikinheimo (1) ((1) Speechly, (2) Department of
Computer Science, University of Helsinki, Finland)
- Abstract要約: RNNトランスデューサモデルは,少量のテキストデータのみを用いて,新しいドメインに効果的に適応できることを示した。
本稿では,複数のASR評価タスクを用いて,目標タスクWERにおける相対的な10〜45%の利得が得られる方法を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Adaption of end-to-end speech recognition systems to new tasks is known to be
challenging. A number of solutions have been proposed which apply external
language models with various fusion methods, possibly with a combination of
two-pass decoding. Also TTS systems have been used to generate adaptation data
for the end-to-end models. In this paper we show that RNN-transducer models can
be effectively adapted to new domains using only small amounts of textual data.
By taking advantage of model's inherent structure, where the prediction network
is interpreted as a language model, we can apply fast adaptation to the model.
Adapting the model avoids the need for complicated decoding time fusions and
external language models. Using appropriate regularization, the prediction
network can be adapted to new domains while still retaining good generalization
capabilities. We show with multiple ASR evaluation tasks how this method can
provide relative gains of 10-45% in target task WER. We also share insights how
RNN-transducer prediction network performs as a language model.
- Abstract(参考訳): エンドツーエンド音声認識システムの新しいタスクへの適応は困難であることが知られている。
様々な融合法で外部言語モデルを適用するソリューションがいくつか提案されており、おそらくは2パスデコードの組み合わせで提案されている。
また、TSシステムはエンドツーエンドモデルの適応データを生成するために使用されている。
本稿では,少量のテキストデータのみを用いて,RNNトランスデューサモデルを新しいドメインに効果的に適用できることを示す。
予測ネットワークを言語モデルとして解釈するモデル固有の構造を利用することにより、モデルに高速適応を適用することができる。
モデルへの適応は、複雑な復号時間融合と外部言語モデルの必要性を避ける。
適切な正規化を用いることで、予測ネットワークは優れた一般化能力を保ちながら、新しいドメインに適応することができる。
本稿では,複数のasr評価タスクを用いて,対象タスクwerにおいて,この手法が10~45%の相対的な利益をもたらすことを示す。
また,rnn-transducer prediction networkが言語モデルとしてどのように機能するかについても考察した。
関連論文リスト
- Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - A Likelihood Ratio based Domain Adaptation Method for E2E Models [10.510472957585646]
Recurrent Neural Networks Transducer (RNN-T)のようなエンドツーエンド(E2E)自動音声認識モデルは、音声アシスタントのようなASRアプリケーションをストリーミングするための一般的な選択肢になりつつある。
E2Eモデルはトレーニング対象のトレーニングデータの表現を学習するのに非常に効果的だが、未確認領域での精度は依然として難しい問題である。
本研究では、テキストデータソースを活用してRNN-Tモデルを新しいドメインやエンティティに適用する、確率比を用いたコンテキストバイアス手法について検討する。
論文 参考訳(メタデータ) (2022-01-10T21:22:39Z) - Distributionally Robust Recurrent Decoders with Random Network
Distillation [93.10261573696788]
本稿では,自動回帰言語モデルが推論中にOODコンテキストを無視できるように,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。
提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を実証する。
論文 参考訳(メタデータ) (2021-10-25T19:26:29Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Transfer Learning Approaches for Streaming End-to-End Speech Recognition
System [27.42059693923457]
伝達学習(TL)は、従来のハイブリッド音声認識(ASR)システムで広く使われている。
本稿では,RNN-Tフレームワークに対する4つの異なるTL手法の比較検討を行う。
論文 参考訳(メタデータ) (2020-08-12T03:25:05Z) - Developing RNN-T Models Surpassing High-Performance Hybrid Models with
Customization Capability [46.73349163361723]
リカレントニューラルネットワークトランスデューサ(Recurrent Neural Network Transducer, RNN-T)は、音声認識のための一般的なハイブリッドモデルを置き換える、有望なエンドツーエンド(E2E)モデルである。
トレーニング中のGPUメモリ消費を低減したRNN-Tモデルの最近の開発について述べる。
本稿では,RNN-Tモデルを新しいドメインにカスタマイズする方法について検討する。
論文 参考訳(メタデータ) (2020-07-30T02:35:20Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。