論文の概要: Transformer-based End-to-End Speech Recognition with Local Dense
Synthesizer Attention
- arxiv url: http://arxiv.org/abs/2010.12155v3
- Date: Sat, 24 Jul 2021 03:52:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 23:45:07.203953
- Title: Transformer-based End-to-End Speech Recognition with Local Dense
Synthesizer Attention
- Title(参考訳): 局所的Dense Synthesizerアテンションを用いた変圧器によるエンドツーエンド音声認識
- Authors: Menglong Xu, Shengqiang Li, Xiao-Lei Zhang
- Abstract要約: Ai-shell1マンダリン音声認識コーパスの実験結果から,提案したLDSA変換器の文字誤り率(CER)は6.49%であった。
LDSA-TransformerはSATransformerよりも少ない計算を必要とする。
- 参考スコア(独自算出の注目度): 15.744464786475458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, several studies reported that dot-product selfattention (SA) may
not be indispensable to the state-of-theart Transformer models. Motivated by
the fact that dense synthesizer attention (DSA), which dispenses with dot
products and pairwise interactions, achieved competitive results in many
language processing tasks, in this paper, we first propose a DSA-based speech
recognition, as an alternative to SA. To reduce the computational complexity
and improve the performance, we further propose local DSA (LDSA) to restrict
the attention scope of DSA to a local range around the current central frame
for speech recognition. Finally, we combine LDSA with SA to extract the local
and global information simultaneously. Experimental results on the Ai-shell1
Mandarine speech recognition corpus show that the proposed LDSA-Transformer
achieves a character error rate (CER) of 6.49%, which is slightly better than
that of the SA-Transformer. Meanwhile, the LDSA-Transformer requires less
computation than the SATransformer. The proposed combination method not only
achieves a CER of 6.18%, which significantly outperforms the SA-Transformer,
but also has roughly the same number of parameters and computational complexity
as the latter. The implementation of the multi-head LDSA is available at
https://github.com/mlxu995/multihead-LDSA.
- Abstract(参考訳): 近年、いくつかの研究で、ドット積自己注意(SA)は最先端のトランスフォーマーモデルには不可欠ではないと報告されている。
ドット積とペア相互作用を不要とする高密度シンセサイザーアテンション(DSA)が,多くの言語処理タスクにおいて競合する結果を得たという事実に感銘を受け,本論文ではまず,SAの代替としてDSAに基づく音声認識を提案する。
計算複雑性を低減し,性能を向上させるため,DSAの注意範囲を現在の中心フレーム周辺の局所範囲に制限する局所的DSA(LDSA)を提案する。
最後に,LDSAとSAを組み合わせることで,地域情報とグローバル情報を同時に抽出する。
Ai-shell1マンダリン音声認識コーパスの実験結果から,提案したLDSA変換器は文字誤り率(CER)が6.49%であることがわかった。
一方、LDSA-TransformerはSATransformerよりも少ない計算を必要とする。
提案手法はcerの6.18%を達成し,sa変換器を著しく上回っているだけでなく,パラメータ数や計算複雑性もほぼ同じである。
Multi-head LDSAの実装はhttps://github.com/mlxu995/multihead-LDSAで公開されている。
関連論文リスト
- Joint Beamforming and Speaker-Attributed ASR for Real Distant-Microphone Meeting Transcription [18.151884620928936]
最先端のエンドツーエンド話者分散自動音声認識(SA-ASR)アーキテクチャは、マルチチャネルノイズと残響低減フロントエンドを欠いている。
そこで本研究では, 実聴記録のためのビームフォーミング法とSA-ASR法を提案する。
論文 参考訳(メタデータ) (2024-10-29T08:17:31Z) - Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Structured State Space Decoder for Speech Recognition and Synthesis [9.354721572095272]
構造化状態空間モデル(S4)が最近提案され、様々な時系列モデリングタスクに対して有望な結果が得られた。
本研究では,S4 を ASR およびテキスト音声タスクのデコーダとして適用し,トランスフォーマーデコーダと比較した。
ASR タスクでは,提案モデルが 1.88%/4.25% の競合単語誤り率 (WER) を達成することを示す。
論文 参考訳(メタデータ) (2022-10-31T06:54:23Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - Efficient Long-Range Attention Network for Image Super-resolution [25.51377161557467]
画像超解像(SR)のための効率的な長距離アテンションネットワーク(ELAN)を提案する。
まず、シフト畳み込み(シフト畳み込み)を用い、1x1畳み込みと同じ複雑さを維持しながら、画像局所構造情報を効果的に抽出する。
その後、GMSAモジュールで2つのシフトコンブをカスケードするだけで、高効率なロングレンジアテンションブロック(ELAB)が構築される。
論文 参考訳(メタデータ) (2022-03-13T16:17:48Z) - Transformer-based end-to-end speech recognition with residual
Gaussian-based self-attention [9.709229853995987]
相対姿勢認識自己注意を導入する。
セルフアテンションのグローバルレンジ依存性モデリング能力を維持します。
また、局所性モデリング能力も向上する。
RPSA, GSA, resGSAをトランスフォーマーに基づく音声認識に適用する。
論文 参考訳(メタデータ) (2021-03-29T16:09:00Z) - Simplified Self-Attention for Transformer-based End-to-End Speech
Recognition [56.818507476125895]
本稿では,プロジェクション層の代わりにFSMNメモリブロックを用いてクエリとキーベクトルを生成する,簡易な自己アテンション層(SSAN)を提案する。
我々は,公的なAISHELL-1,1000時間内,20,000時間大規模マンダリンタスクにおけるSSANベースおよび従来のSANベースのトランスフォーマーの評価を行った。
論文 参考訳(メタデータ) (2020-05-21T04:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。