Fugu-MT 論文翻訳(概要): Transformer-based End-to-End Speech Recognition with Local Dense Synthesizer Attention

論文の概要: Transformer-based End-to-End Speech Recognition with Local Dense Synthesizer Attention

arxiv url: http://arxiv.org/abs/2010.12155v3
Date: Sat, 24 Jul 2021 03:52:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-03 23:45:07.203953
Title: Transformer-based End-to-End Speech Recognition with Local Dense Synthesizer Attention
Title（参考訳）: 局所的Dense Synthesizerアテンションを用いた変圧器によるエンドツーエンド音声認識
Authors: Menglong Xu, Shengqiang Li, Xiao-Lei Zhang
Abstract要約: Ai-shell1マンダリン音声認識コーパスの実験結果から,提案したLDSA変換器の文字誤り率(CER)は6.49%であった。 LDSA-TransformerはSATransformerよりも少ない計算を必要とする。
参考スコア（独自算出の注目度）: 15.744464786475458
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, several studies reported that dot-product selfattention (SA) may not be indispensable to the state-of-theart Transformer models. Motivated by the fact that dense synthesizer attention (DSA), which dispenses with dot products and pairwise interactions, achieved competitive results in many language processing tasks, in this paper, we first propose a DSA-based speech recognition, as an alternative to SA. To reduce the computational complexity and improve the performance, we further propose local DSA (LDSA) to restrict the attention scope of DSA to a local range around the current central frame for speech recognition. Finally, we combine LDSA with SA to extract the local and global information simultaneously. Experimental results on the Ai-shell1 Mandarine speech recognition corpus show that the proposed LDSA-Transformer achieves a character error rate (CER) of 6.49%, which is slightly better than that of the SA-Transformer. Meanwhile, the LDSA-Transformer requires less computation than the SATransformer. The proposed combination method not only achieves a CER of 6.18%, which significantly outperforms the SA-Transformer, but also has roughly the same number of parameters and computational complexity as the latter. The implementation of the multi-head LDSA is available at https://github.com/mlxu995/multihead-LDSA.
Abstract（参考訳）: 近年、いくつかの研究で、ドット積自己注意(SA)は最先端のトランスフォーマーモデルには不可欠ではないと報告されている。ドット積とペア相互作用を不要とする高密度シンセサイザーアテンション(DSA)が,多くの言語処理タスクにおいて競合する結果を得たという事実に感銘を受け,本論文ではまず,SAの代替としてDSAに基づく音声認識を提案する。計算複雑性を低減し,性能を向上させるため,DSAの注意範囲を現在の中心フレーム周辺の局所範囲に制限する局所的DSA(LDSA)を提案する。最後に,LDSAとSAを組み合わせることで,地域情報とグローバル情報を同時に抽出する。 Ai-shell1マンダリン音声認識コーパスの実験結果から,提案したLDSA変換器は文字誤り率(CER)が6.49%であることがわかった。一方、LDSA-TransformerはSATransformerよりも少ない計算を必要とする。提案手法はcerの6.18%を達成し,sa変換器を著しく上回っているだけでなく,パラメータ数や計算複雑性もほぼ同じである。 Multi-head LDSAの実装はhttps://github.com/mlxu995/multihead-LDSAで公開されている。

関連論文リスト

Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model [85.72664004969182]
本稿では,AQAA(Audio-Audio Answer)タスク用に設計された完全エンドツーエンドのLALMであるStep-Audio-AQAAを紹介する。このモデルは、言語的特徴抽出と意味的特徴抽出のためのデュアルコードブックオーディオトークンーザを統合している。我々のポストトレーニングアプローチでは、意味的コヒーレンスを高めるために、テキストとオーディオのインターリーブドトークンアウトプットを用いる。
論文参考訳（メタデータ） (2025-06-10T16:37:39Z)
Ensembling Sparse Autoencoders [10.81463830315253]
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴に分解するために用いられる。我々は,複数のSAEを包括的袋詰めとブースティングによりアンサンブルすることを提案する。実験の結果,SAEのアンサンブルにより,言語モデルの活性化,特徴の多様性,SAEの安定性が向上することが示された。
論文参考訳（メタデータ） (2025-05-21T23:31:21Z)
Joint Beamforming and Speaker-Attributed ASR for Real Distant-Microphone Meeting Transcription [18.151884620928936]
最先端のエンドツーエンド話者分散自動音声認識(SA-ASR)アーキテクチャは、マルチチャネルノイズと残響低減フロントエンドを欠いている。そこで本研究では, 実聴記録のためのビームフォーミング法とSA-ASR法を提案する。
論文参考訳（メタデータ） (2024-10-29T08:17:31Z)
Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。本稿では,Llama-AVSRを提案する。我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文参考訳（メタデータ） (2024-09-18T21:17:27Z)
Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文参考訳（メタデータ） (2024-01-08T16:37:45Z)
Exploring the Integration of Speech Separation and Recognition with Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。 TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文参考訳（メタデータ） (2023-07-23T05:39:39Z)
Structured State Space Decoder for Speech Recognition and Synthesis [9.354721572095272]
構造化状態空間モデル(S4)が最近提案され、様々な時系列モデリングタスクに対して有望な結果が得られた。本研究では,S4 を ASR およびテキスト音声タスクのデコーダとして適用し,トランスフォーマーデコーダと比較した。 ASR タスクでは,提案モデルが 1.88%/4.25% の競合単語誤り率 (WER) を達成することを示す。
論文参考訳（メタデータ） (2022-10-31T06:54:23Z)
Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文参考訳（メタデータ） (2022-03-30T21:42:00Z)
Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文参考訳（メタデータ） (2022-03-28T17:51:00Z)
Efficient Long-Range Attention Network for Image Super-resolution [25.51377161557467]
画像超解像(SR)のための効率的な長距離アテンションネットワーク(ELAN)を提案する。まず、シフト畳み込み(シフト畳み込み)を用い、1x1畳み込みと同じ複雑さを維持しながら、画像局所構造情報を効果的に抽出する。その後、GMSAモジュールで2つのシフトコンブをカスケードするだけで、高効率なロングレンジアテンションブロック(ELAB)が構築される。
論文参考訳（メタデータ） (2022-03-13T16:17:48Z)
Transformer-based end-to-end speech recognition with residual Gaussian-based self-attention [9.709229853995987]
相対姿勢認識自己注意を導入する。セルフアテンションのグローバルレンジ依存性モデリング能力を維持します。また、局所性モデリング能力も向上する。 RPSA, GSA, resGSAをトランスフォーマーに基づく音声認識に適用する。
論文参考訳（メタデータ） (2021-03-29T16:09:00Z)
Simplified Self-Attention for Transformer-based End-to-End Speech Recognition [56.818507476125895]
本稿では,プロジェクション層の代わりにFSMNメモリブロックを用いてクエリとキーベクトルを生成する,簡易な自己アテンション層(SSAN)を提案する。我々は,公的なAISHELL-1,1000時間内,20,000時間大規模マンダリンタスクにおけるSSANベースおよび従来のSANベースのトランスフォーマーの評価を行った。
論文参考訳（メタデータ） (2020-05-21T04:55:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。