論文の概要: SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition
- arxiv url: http://arxiv.org/abs/2110.05571v1
- Date: Mon, 11 Oct 2021 19:23:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 14:48:20.989707
- Title: SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition
- Title(参考訳): sru++: 音声認識に注意を向けた高速再発の先駆者
- Authors: Jing Pan, Tao Lei, Kwangyoun Kim, Kyu Han, Shinji Watanabe
- Abstract要約: 複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
- 参考スコア(独自算出の注目度): 49.42625022146008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer architecture has been well adopted as a dominant architecture
in most sequence transduction tasks including automatic speech recognition
(ASR), since its attention mechanism excels in capturing long-range
dependencies. While models built solely upon attention can be better
parallelized than regular RNN, a novel network architecture, SRU++, was
recently proposed. By combining the fast recurrence and attention mechanism,
SRU++ exhibits strong capability in sequence modeling and achieves
near-state-of-the-art results in various language modeling and machine
translation tasks with improved compute efficiency. In this work, we present
the advantages of applying SRU++ in ASR tasks by comparing with Conformer
across multiple ASR benchmarks and study how the benefits can be generalized to
long-form speech inputs. On the popular LibriSpeech benchmark, our SRU++ model
achieves 2.0% / 4.7% WER on test-clean / test-other, showing competitive
performances compared with the state-of-the-art Conformer encoder under the
same set-up. Specifically, SRU++ can surpass Conformer on long-form speech
input with a large margin, based on our analysis.
- Abstract(参考訳): トランスフォーマーアーキテクチャは,音声認識(asr)を含むほとんどのシーケンス変換タスクにおいて,長距離依存の把握に優れた注意力を持つため,支配的なアーキテクチャとして広く採用されている。
注意のみに基づいて構築されたモデルは、通常のRNNよりも並列化がよいが、新しいネットワークアーキテクチャであるSRU++が最近提案されている。
高速リカレンスとアテンション機構を組み合わせることで、SRU++はシーケンスモデリングの強力な能力を示し、様々な言語モデリングや機械翻訳タスクにおける最先端の結果を達成し、計算効率を向上する。
本研究では,複数のASRベンチマークにおいてコンフォーマーとの比較を行い,SRU++をASRタスクに適用する利点について述べる。
人気の高いLibriSpeechベンチマークでは、テストクリーン/他のテストでSRU++モデルが2.0%/4.7% WERを達成した。
具体的には,SRU++ が長文音声入力において Conformer を上回り,その差が大きい。
関連論文リスト
- Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。
本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。
同様のビットレートでEncodecを上回るパイプラインを導入する。
論文 参考訳(メタデータ) (2024-07-03T20:51:41Z) - Heterogeneous Reservoir Computing Models for Persian Speech Recognition [0.0]
Reservoir Computing Model (RC)モデルは、トレーニングに安価であること、パラメータが大幅に少なく、創発的なハードウェア技術と互換性があることが証明されている。
異なるスケールで時間的コンテキストをキャプチャする入力の非線形変換を生成するために、異種単層および多層ESNを提案する。
論文 参考訳(メタデータ) (2022-05-25T09:15:15Z) - A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text
Generation [59.64193903397301]
非自己回帰モデル (NAR) はシーケンス内の複数の出力を同時に生成し、自動回帰ベースラインと比較して精度低下のコストで推論速度を著しく低減する。
エンドツーエンド自動音声認識(ASR)のための様々なNARモデリング手法の比較研究を行う。
各種課題の成果は, 精度・速度トレードオフや長文発話に対する頑健性など, NAR ASR の理解を深める上で興味深い結果をもたらす。
論文 参考訳(メタデータ) (2021-10-11T13:05:06Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z) - Improving RNN Transducer Based ASR with Auxiliary Tasks [21.60022481898402]
単一ニューラルネットワークを用いたエンドツーエンド自動音声認識(ASR)モデルは、最近最先端の結果を実証した。
本研究では,リカレントニューラルネットワークトランスデューサ(RNN-T)が補助タスクを実行することで,より優れたASR精度を実現する方法を検討する。
論文 参考訳(メタデータ) (2020-11-05T21:46:32Z) - Sequence-to-Sequence Learning via Attention Transfer for Incremental
Speech Recognition [25.93405777713522]
ISR タスクにアテンションベース ASR の本来のアーキテクチャを用いることができるかを検討する。
我々は、より薄いモデルや浅いモデルを使う代わりに、教師モデルのオリジナルのアーキテクチャを短いシーケンスで保持する代替の学生ネットワークを設計する。
実験の結果,認識プロセスの開始時刻を約1.7秒で遅延させることで,終了まで待たなければならないものと同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2020-11-04T05:06:01Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Recognizing Long Grammatical Sequences Using Recurrent Networks
Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。
RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。
これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。
本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文 参考訳(メタデータ) (2020-04-04T14:19:15Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。