論文の概要: Multitask Learning and Joint Optimization for Transformer-RNN-Transducer
Speech Recognition
- arxiv url: http://arxiv.org/abs/2011.00771v1
- Date: Mon, 2 Nov 2020 06:38:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 13:18:28.551219
- Title: Multitask Learning and Joint Optimization for Transformer-RNN-Transducer
Speech Recognition
- Title(参考訳): 変換器-RNN変換器音声認識のためのマルチタスク学習と共同最適化
- Authors: Jae-Jin Jeon, Eesung Kim
- Abstract要約: 本稿では,マルチタスク学習,共同最適化,および変換器-RNN-トランスデューサシステムの共同復号法について検討する。
提案手法は, 単語誤り率(WER)を16.6 %, 13.3 %削減できることを示す。
- 参考スコア(独自算出の注目度): 13.198689566654107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, several types of end-to-end speech recognition methods named
transformer-transducer were introduced. According to those kinds of methods,
transcription networks are generally modeled by transformer-based neural
networks, while prediction networks could be modeled by either transformers or
recurrent neural networks (RNN). This paper explores multitask learning, joint
optimization, and joint decoding methods for transformer-RNN-transducer
systems. Our proposed methods have the main advantage in that the model can
maintain information on the large text corpus. We prove their effectiveness by
performing experiments utilizing the well-known ESPNET toolkit for the widely
used Librispeech datasets. We also show that the proposed methods can reduce
word error rate (WER) by 16.6 % and 13.3 % for test-clean and test-other
datasets, respectively, without changing the overall model structure nor
exploiting an external LM.
- Abstract(参考訳): 近年,トランスデューサと呼ばれるエンドツーエンド音声認識方式がいくつか導入されている。
これらの方法によれば、転写ネットワークは一般的にトランスフォーマーベースのニューラルネットワークによってモデル化され、予測ネットワークはトランスフォーマーまたはリカレントニューラルネットワーク(RNN)によってモデル化される。
本稿では,マルチタスク学習,共同最適化,および変換器-RNN-トランスデューサシステムの共同復号法について検討する。
提案手法は,大規模なテキストコーパスの情報をモデルが維持できるという点で大きな利点がある。
広く使われているLibrispeechデータセットのESPNETツールキットを用いて実験を行い,その有効性を証明する。
また,提案手法では,モデル全体の構造を変更したり,外部のlmを利用することなく,それぞれ16.6 %,13.3 %の単語誤り率 (wer) を削減できることを示した。
関連論文リスト
- Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - VQ-T: RNN Transducers using Vector-Quantized Prediction Network States [52.48566999668521]
本稿では,RNNトランスデューサの予測ネットワークにおけるベクトル量子化長短期記憶単位を提案する。
ASRネットワークと協調して離散表現を訓練することにより、格子生成のために仮説を積極的にマージすることができる。
提案するVQ RNNトランスデューサは,通常の予測ネットワークを持つトランスデューサよりもASR性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-03T02:45:52Z) - Convolutional Dictionary Learning by End-To-End Training of Iterative
Neural Networks [3.6280929178575994]
本研究では,教師付きおよび物理情報を用いたオンライン畳み込み辞書学習アルゴリズムとして利用可能な INN を構築する。
提案手法は,従来の2つのモデルに依存しない訓練法よりも改善され,深い INN と比較して競争結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-09T12:15:38Z) - Improving the fusion of acoustic and text representations in RNN-T [35.43599666228086]
我々は、より表現力のある表現を生成するために、ゲーティング、バイリニアプーリング、およびそれらを結合ネットワークで組み合わせることを提案する。
提案手法の併用により, 単語誤り率を4%-5%削減できることを示す。
論文 参考訳(メタデータ) (2022-01-25T11:20:50Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - Fast Text-Only Domain Adaptation of RNN-Transducer Prediction Network [0.0]
RNNトランスデューサモデルは,少量のテキストデータのみを用いて,新しいドメインに効果的に適応できることを示した。
本稿では,複数のASR評価タスクを用いて,目標タスクWERにおける相対的な10〜45%の利得が得られる方法を示す。
論文 参考訳(メタデータ) (2021-04-22T15:21:41Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。