論文の概要: Transformer-based End-to-End Speech Recognition with Local Dense
Synthesizer Attention
- arxiv url: http://arxiv.org/abs/2010.12155v3
- Date: Sat, 24 Jul 2021 03:52:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 23:45:07.203953
- Title: Transformer-based End-to-End Speech Recognition with Local Dense
Synthesizer Attention
- Title(参考訳): 局所的Dense Synthesizerアテンションを用いた変圧器によるエンドツーエンド音声認識
- Authors: Menglong Xu, Shengqiang Li, Xiao-Lei Zhang
- Abstract要約: Ai-shell1マンダリン音声認識コーパスの実験結果から,提案したLDSA変換器の文字誤り率(CER)は6.49%であった。
LDSA-TransformerはSATransformerよりも少ない計算を必要とする。
- 参考スコア(独自算出の注目度): 15.744464786475458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, several studies reported that dot-product selfattention (SA) may
not be indispensable to the state-of-theart Transformer models. Motivated by
the fact that dense synthesizer attention (DSA), which dispenses with dot
products and pairwise interactions, achieved competitive results in many
language processing tasks, in this paper, we first propose a DSA-based speech
recognition, as an alternative to SA. To reduce the computational complexity
and improve the performance, we further propose local DSA (LDSA) to restrict
the attention scope of DSA to a local range around the current central frame
for speech recognition. Finally, we combine LDSA with SA to extract the local
and global information simultaneously. Experimental results on the Ai-shell1
Mandarine speech recognition corpus show that the proposed LDSA-Transformer
achieves a character error rate (CER) of 6.49%, which is slightly better than
that of the SA-Transformer. Meanwhile, the LDSA-Transformer requires less
computation than the SATransformer. The proposed combination method not only
achieves a CER of 6.18%, which significantly outperforms the SA-Transformer,
but also has roughly the same number of parameters and computational complexity
as the latter. The implementation of the multi-head LDSA is available at
https://github.com/mlxu995/multihead-LDSA.
- Abstract(参考訳): 近年、いくつかの研究で、ドット積自己注意(SA)は最先端のトランスフォーマーモデルには不可欠ではないと報告されている。
ドット積とペア相互作用を不要とする高密度シンセサイザーアテンション(DSA)が,多くの言語処理タスクにおいて競合する結果を得たという事実に感銘を受け,本論文ではまず,SAの代替としてDSAに基づく音声認識を提案する。
計算複雑性を低減し,性能を向上させるため,DSAの注意範囲を現在の中心フレーム周辺の局所範囲に制限する局所的DSA(LDSA)を提案する。
最後に,LDSAとSAを組み合わせることで,地域情報とグローバル情報を同時に抽出する。
Ai-shell1マンダリン音声認識コーパスの実験結果から,提案したLDSA変換器は文字誤り率(CER)が6.49%であることがわかった。
一方、LDSA-TransformerはSATransformerよりも少ない計算を必要とする。
提案手法はcerの6.18%を達成し,sa変換器を著しく上回っているだけでなく,パラメータ数や計算複雑性もほぼ同じである。
Multi-head LDSAの実装はhttps://github.com/mlxu995/multihead-LDSAで公開されている。
関連論文リスト
- Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [78.73547416883987]
クロスミクススピーカを提案する。
話者間の表現を集約することでSIMOモデルの限界に対処するネットワーク。
CSE-SOT モデルは,単語誤り率 (WER) をSOT モデルと比較して10%削減し,ハイオーバーラップ音声では16%削減する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Low latency transformers for speech processing [1.356544027928702]
固定レイテンシに因果的に動作するストリームアテンション(SA)と,レイヤ数に比例しない複数のSA層を組み合わせたLLSA(LLSA)を導入する。
本稿では,SA法とLLSA法が従来のアカウザー変換器の利点の多くを保ちながら,リアルタイムストリーミングアプリケーションで実行できるようにする遅延特性を示す。
論文 参考訳(メタデータ) (2023-02-27T00:44:22Z) - Structured State Space Decoder for Speech Recognition and Synthesis [9.354721572095272]
構造化状態空間モデル(S4)が最近提案され、様々な時系列モデリングタスクに対して有望な結果が得られた。
本研究では,S4 を ASR およびテキスト音声タスクのデコーダとして適用し,トランスフォーマーデコーダと比較した。
ASR タスクでは,提案モデルが 1.88%/4.25% の競合単語誤り率 (WER) を達成することを示す。
論文 参考訳(メタデータ) (2022-10-31T06:54:23Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - Efficient Long-Range Attention Network for Image Super-resolution [25.51377161557467]
画像超解像(SR)のための効率的な長距離アテンションネットワーク(ELAN)を提案する。
まず、シフト畳み込み(シフト畳み込み)を用い、1x1畳み込みと同じ複雑さを維持しながら、画像局所構造情報を効果的に抽出する。
その後、GMSAモジュールで2つのシフトコンブをカスケードするだけで、高効率なロングレンジアテンションブロック(ELAB)が構築される。
論文 参考訳(メタデータ) (2022-03-13T16:17:48Z) - Transformer-based end-to-end speech recognition with residual
Gaussian-based self-attention [9.709229853995987]
相対姿勢認識自己注意を導入する。
セルフアテンションのグローバルレンジ依存性モデリング能力を維持します。
また、局所性モデリング能力も向上する。
RPSA, GSA, resGSAをトランスフォーマーに基づく音声認識に適用する。
論文 参考訳(メタデータ) (2021-03-29T16:09:00Z) - Simplified Self-Attention for Transformer-based End-to-End Speech
Recognition [56.818507476125895]
本稿では,プロジェクション層の代わりにFSMNメモリブロックを用いてクエリとキーベクトルを生成する,簡易な自己アテンション層(SSAN)を提案する。
我々は,公的なAISHELL-1,1000時間内,20,000時間大規模マンダリンタスクにおけるSSANベースおよび従来のSANベースのトランスフォーマーの評価を行った。
論文 参考訳(メタデータ) (2020-05-21T04:55:59Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。