論文の概要: Improving RNN Transducer Based ASR with Auxiliary Tasks
- arxiv url: http://arxiv.org/abs/2011.03109v2
- Date: Mon, 9 Nov 2020 03:48:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 12:43:32.723624
- Title: Improving RNN Transducer Based ASR with Auxiliary Tasks
- Title(参考訳): 補助タスクによるrnnトランスデューサベースasrの改善
- Authors: Chunxi Liu, Frank Zhang, Duc Le, Suyoun Kim, Yatharth Saraf, Geoffrey
Zweig
- Abstract要約: 単一ニューラルネットワークを用いたエンドツーエンド自動音声認識(ASR)モデルは、最近最先端の結果を実証した。
本研究では,リカレントニューラルネットワークトランスデューサ(RNN-T)が補助タスクを実行することで,より優れたASR精度を実現する方法を検討する。
- 参考スコア(独自算出の注目度): 21.60022481898402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end automatic speech recognition (ASR) models with a single neural
network have recently demonstrated state-of-the-art results compared to
conventional hybrid speech recognizers. Specifically, recurrent neural network
transducer (RNN-T) has shown competitive ASR performance on various benchmarks.
In this work, we examine ways in which RNN-T can achieve better ASR accuracy
via performing auxiliary tasks. We propose (i) using the same auxiliary task as
primary RNN-T ASR task, and (ii) performing context-dependent graphemic state
prediction as in conventional hybrid modeling. In transcribing social media
videos with varying training data size, we first evaluate the streaming ASR
performance on three languages: Romanian, Turkish and German. We find that both
proposed methods provide consistent improvements. Next, we observe that both
auxiliary tasks demonstrate efficacy in learning deep transformer encoders for
RNN-T criterion, thus achieving competitive results - 2.0%/4.2% WER on
LibriSpeech test-clean/other - as compared to prior top performing models.
- Abstract(参考訳): 単一ニューラルネットワークを用いたエンドツーエンド自動音声認識(ASR)モデルは,最近,従来のハイブリッド音声認識と比較して最先端の結果が示された。
特に、recurrent neural network transducer (rnn-t)は様々なベンチマークで競合asr性能を示している。
本研究では,RNN-Tが補助タスクを実行することで,より優れたASR精度を実現する方法を検討する。
提案します
一 一次RNN-T ASRタスクと同じ補助タスクの使用、及び
(ii)従来のハイブリッドモデルのように文脈依存のグラフ状態予測を行う。
トレーニングデータサイズの異なるソーシャルメディアビデオの翻訳では,まずルーマニア語,トルコ語,ドイツ語の3言語でストリーミングASRのパフォーマンスを評価する。
両手法が一貫した改善をもたらすことがわかった。
次に,rnn-t基準の深層トランスフォーマエンコーダの学習において,両方の補助タスクが有効であることを確認し,先行実行モデルと比較して,librispeech test-clean/otherにおける2.0%/4.2% werの競合結果を得た。
関連論文リスト
- Streaming Speech-to-Confusion Network Speech Recognition [19.720334657478475]
本稿では、待ち時間を維持しながら混乱ネットワークを出力する新しいストリーミングASRアーキテクチャを提案する。
モデルのうち1-bestの結果は、同等のRNN-Tシステムと同等であることを示す。
また、遠距離音声アシスタントタスクにおいて、我々のモデルは強力なRNN-Tベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-02T20:28:14Z) - Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-08T00:40:27Z) - VQ-T: RNN Transducers using Vector-Quantized Prediction Network States [52.48566999668521]
本稿では,RNNトランスデューサの予測ネットワークにおけるベクトル量子化長短期記憶単位を提案する。
ASRネットワークと協調して離散表現を訓練することにより、格子生成のために仮説を積極的にマージすることができる。
提案するVQ RNNトランスデューサは,通常の予測ネットワークを持つトランスデューサよりもASR性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-03T02:45:52Z) - Heterogeneous Reservoir Computing Models for Persian Speech Recognition [0.0]
Reservoir Computing Model (RC)モデルは、トレーニングに安価であること、パラメータが大幅に少なく、創発的なハードウェア技術と互換性があることが証明されている。
異なるスケールで時間的コンテキストをキャプチャする入力の非線形変換を生成するために、異種単層および多層ESNを提案する。
論文 参考訳(メタデータ) (2022-05-25T09:15:15Z) - CTA-RNN: Channel and Temporal-wise Attention RNN Leveraging Pre-trained
ASR Embeddings for Speech Emotion Recognition [20.02248459288662]
本稿では,事前学習されたASRモデルの中間表現に基づく新しいチャネルと時間的注意RNNアーキテクチャを提案する。
本稿では,IEMOCAP と MSP-IMPROV の2つのベンチマークデータセットに対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-03-31T13:32:51Z) - Learning Transformer Features for Image Quality Assessment [53.51379676690971]
本稿では,CNNバックボーンとトランスフォーマーエンコーダを用いて特徴抽出を行うIQAフレームワークを提案する。
提案するフレームワークはFRモードとNRモードの両方と互換性があり、共同トレーニング方式が可能である。
論文 参考訳(メタデータ) (2021-12-01T13:23:00Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - Fine-tuning of Pre-trained End-to-end Speech Recognition with Generative
Adversarial Networks [10.723935272906461]
近年, GAN (Generative Adversarial Network) を用いたエンド・ツー・エンド(E2E) ASRシステムの対戦訓練について検討している。
GAN目標を用いた事前学習型ASRモデルの微調整のための新しいフレームワークを提案する。
提案手法は,ベースラインと従来のGANベースの対戦モデルより優れている。
論文 参考訳(メタデータ) (2021-03-10T17:40:48Z) - Dual-mode ASR: Unify and Improve Streaming ASR with Full-context
Modeling [76.43479696760996]
本稿では,ストリーミングとフルコンテキスト音声認識の両方に共通重みを持つ単一エンドツーエンドのASRモデルをトレーニングするための統合フレームワークであるDual-mode ASRを提案する。
そこで本研究では,ストリーミングASRのレイテンシと精度が,重み共有とフルコンテキストASRの連成訓練のメリットを顕著に示す。
論文 参考訳(メタデータ) (2020-10-12T21:12:56Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。