論文の概要: Transfer Learning Approaches for Streaming End-to-End Speech Recognition
System
- arxiv url: http://arxiv.org/abs/2008.05086v2
- Date: Mon, 17 Aug 2020 14:27:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 04:54:33.037083
- Title: Transfer Learning Approaches for Streaming End-to-End Speech Recognition
System
- Title(参考訳): エンドツーエンド音声認識システムにおける転送学習手法
- Authors: Vikas Joshi, Rui Zhao, Rupesh R. Mehta, Kshitiz Kumar, Jinyu Li
- Abstract要約: 伝達学習(TL)は、従来のハイブリッド音声認識(ASR)システムで広く使われている。
本稿では,RNN-Tフレームワークに対する4つの異なるTL手法の比較検討を行う。
- 参考スコア(独自算出の注目度): 27.42059693923457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer learning (TL) is widely used in conventional hybrid automatic speech
recognition (ASR) system, to transfer the knowledge from source to target
language. TL can be applied to end-to-end (E2E) ASR system such as recurrent
neural network transducer (RNN-T) models, by initializing the encoder and/or
prediction network of the target language with the pre-trained models from
source language. In the hybrid ASR system, transfer learning is typically done
by initializing the target language acoustic model (AM) with source language
AM. Several transfer learning strategies exist in the case of the RNN-T
framework, depending upon the choice of the initialization model for encoder
and prediction networks. This paper presents a comparative study of four
different TL methods for RNN-T framework. We show 17% relative word error rate
reduction with different TL methods over randomly initialized RNN-T model. We
also study the impact of TL with varying amount of training data ranging from
50 hours to 1000 hours and show the efficacy of TL for languages with small
amount of training data.
- Abstract(参考訳): 伝達学習(TL)は、従来のハイブリッド音声認識(ASR)システムにおいて、知識をソースからターゲット言語に伝達するために広く用いられている。
リカレントニューラルネットワークトランスデューサ(rnn-t)モデルのようなエンドツーエンド(e2e)asrシステムでは、ターゲット言語のエンコーダおよび/または予測ネットワークを、ソース言語から事前学習したモデルで初期化することでtlを適用できる。
ハイブリッドasrシステムでは、転送学習は通常、対象言語音響モデル(am)をソース言語amで初期化することによって行われる。
RNN-Tフレームワークの場合、エンコーダと予測ネットワークの初期化モデルの選択に応じて、いくつかの転送学習戦略が存在する。
本稿では,RNN-Tフレームワークに対する4種類のTL手法の比較検討を行う。
ランダム初期化rnn-tモデルに対するtl法の違いによる単語誤り率の17%削減を示した。
また,学習データ量が50時間から1000時間に変化した場合のTLの影響について検討し,学習データが少ない言語に対するTLの有効性を示した。
関連論文リスト
- LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Multi-blank Transducers for Speech Recognition [49.6154259349501]
提案手法では,出力時に2つ以上の入力フレームを消費する空白記号を新たに導入する。
付加記号を大きなブランク、マルチブランクRNN-Tと呼ぶ。
複数の言語とデータセットの実験により、マルチブランクRNN-T法は、相対速度が+90%/+139%以上になることを示した。
論文 参考訳(メタデータ) (2022-11-04T16:24:46Z) - Low-Resource Music Genre Classification with Cross-Modal Neural Model
Reprogramming [129.4950757742912]
ニューラルモデル再プログラミング(NMR)の概念に基づく低リソース(音楽)分類のための事前学習モデルを活用する新しい手法を提案する。
NMRは、凍結した事前学習モデルの入力を変更することにより、ソースドメインからターゲットドメインへの事前学習モデルの再取得を目指している。
実験結果から,大規模データセットに事前学習したニューラルモデルは,この再プログラミング手法を用いて,音楽ジャンルの分類に成功できることが示唆された。
論文 参考訳(メタデータ) (2022-11-02T17:38:33Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Speech recognition for air traffic control via feature learning and
end-to-end training [8.755785876395363]
本稿では,特徴学習に基づく新しい自動音声認識(ASR)システムと,航空交通制御(ATC)システムのためのエンドツーエンドトレーニング手順を提案する。
提案モデルでは、特徴学習ブロック、リカレントニューラルネットワーク(RNN)、コネクショニストの時間的分類損失を統合する。
生波形から表現を学習する能力により、提案したモデルは完全なエンドツーエンドで最適化できる。
論文 参考訳(メタデータ) (2021-11-04T06:38:21Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - End-to-End Spoken Language Understanding using RNN-Transducer ASR [14.267028645397266]
本稿では,音声音声からテキスト,意図,スロットを抽出するエンドツーエンド学習音声理解システム(SLU)を提案する。
ストリーミングリカレントニューラルネットワークトランスデューサ(RNNT)ベースの自動音声認識(ASR)モデルからなり、ニューラルネットワークを通じてニューラル自然言語理解(NLU)モデルに接続される。
論文 参考訳(メタデータ) (2021-06-30T09:20:32Z) - Fast Text-Only Domain Adaptation of RNN-Transducer Prediction Network [0.0]
RNNトランスデューサモデルは,少量のテキストデータのみを用いて,新しいドメインに効果的に適応できることを示した。
本稿では,複数のASR評価タスクを用いて,目標タスクWERにおける相対的な10〜45%の利得が得られる方法を示す。
論文 参考訳(メタデータ) (2021-04-22T15:21:41Z) - Reprogramming Language Models for Molecular Representation Learning [65.00999660425731]
本稿では,分子学習タスクのための事前学習言語モデルに対して,辞書学習(R2DL)による表現再プログラミングを提案する。
対比プログラムは、k-SVDソルバを用いて、高密度ソースモデル入力空間(言語データ)とスパースターゲットモデル入力空間(例えば、化学および生物学的分子データ)との間の線形変換を学習する。
R2DLは、ドメイン固有のデータに基づいて訓練されたアート毒性予測モデルの状態によって確立されたベースラインを達成し、限られたトレーニングデータ設定でベースラインを上回る。
論文 参考訳(メタデータ) (2020-12-07T05:50:27Z) - Bootstrap an end-to-end ASR system by multilingual training, transfer
learning, text-to-text mapping and synthetic audio [8.510792628268824]
限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。
本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。
実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-11-25T13:11:32Z) - Multitask Learning and Joint Optimization for Transformer-RNN-Transducer
Speech Recognition [13.198689566654107]
本稿では,マルチタスク学習,共同最適化,および変換器-RNN-トランスデューサシステムの共同復号法について検討する。
提案手法は, 単語誤り率(WER)を16.6 %, 13.3 %削減できることを示す。
論文 参考訳(メタデータ) (2020-11-02T06:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。