論文の概要: Weak-Attention Suppression For Transformer Based Speech Recognition
- arxiv url: http://arxiv.org/abs/2005.09137v1
- Date: Mon, 18 May 2020 23:49:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 00:07:20.328980
- Title: Weak-Attention Suppression For Transformer Based Speech Recognition
- Title(参考訳): 変圧器に基づく音声認識における弱アテンション抑圧
- Authors: Yangyang Shi, Yongqiang Wang, Chunyang Wu, Christian Fuegen, Frank
Zhang, Duc Le, Ching-Feng Yeh, Michael L. Seltzer
- Abstract要約: Weak-Attention Suppression (WAS) を提案する。
We demonstrate that WAS leads to consistent Word Error Rate (WER) improve over strong transformer baselines。
- 参考スコア(独自算出の注目度): 33.30436927415777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers, originally proposed for natural language processing (NLP)
tasks, have recently achieved great success in automatic speech recognition
(ASR). However, adjacent acoustic units (i.e., frames) are highly correlated,
and long-distance dependencies between them are weak, unlike text units. It
suggests that ASR will likely benefit from sparse and localized attention. In
this paper, we propose Weak-Attention Suppression (WAS), a method that
dynamically induces sparsity in attention probabilities. We demonstrate that
WAS leads to consistent Word Error Rate (WER) improvement over strong
transformer baselines. On the widely used LibriSpeech benchmark, our proposed
method reduced WER by 10%$ on test-clean and 5% on test-other for streamable
transformers, resulting in a new state-of-the-art among streaming models.
Further analysis shows that WAS learns to suppress attention of non-critical
and redundant continuous acoustic frames, and is more likely to suppress past
frames rather than future ones. It indicates the importance of lookahead in
attention-based ASR models.
- Abstract(参考訳): 自然言語処理(nlp)タスクのために当初提案されたトランスフォーマーは、最近自動音声認識(asr)で大きな成功を収めている。
しかし、隣接する音響単位(つまりフレーム)は高い相関関係にあり、それら間の長距離依存はテキスト単位と異なり弱い。
asrは、スパースとローカライズされた注意の恩恵を受ける可能性が高い。
本稿では,注意確率の分散を動的に誘導するWeak-Attention Suppression (WAS)を提案する。
我々は,強いトランスフォーマーベースラインに対して,単語誤り率(wer)が一貫した改善をもたらすことを実証する。
広範に使用されているLibriSpeechベンチマークでは,WERをテストクリーンで10%,ストリーム可能なトランスフォーマーで5%削減し,ストリーミングモデルに新たな最先端性をもたらした。
さらなる分析により、WASは非臨界かつ冗長な連続音響フレームの注意を抑えることを学び、将来のフレームよりも過去のフレームを抑える可能性が示唆された。
これは注意に基づくasrモデルにおけるルックアヘッドの重要性を示している。
関連論文リスト
- Promptformer: Prompted Conformer Transducer for ASR [40.88399609719793]
注意機構の音響表現とテキストコンテキストを融合させるために,ハイパープロンプティングにインスパイアされた新しいメカニズムを導入する。
提案手法は, 高いベースライン上での相対単語誤り率(rWERR)を5.9%低減することを示す。
論文 参考訳(メタデータ) (2024-01-14T20:14:35Z) - Whispering LLaMA: A Cross-Modal Generative Error Correction Framework
for Speech Recognition [10.62060432965311]
自動音声認識(ASR)における生成誤り訂正のための新しいクロスモーダル融合手法を提案する。
提案手法は,音響情報と外部言語表現の両方を利用して,正確な音声の書き起こしコンテキストを生成する。
論文 参考訳(メタデータ) (2023-10-10T09:04:33Z) - Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - Voice Quality and Pitch Features in Transformer-Based Speech Recognition [3.921076451326107]
本研究では,トランスフォーマーに基づくASRモデルに対して,音声品質とピッチ特徴を完全かつ個別に取り入れることの効果について検討した。
We found mean Word Error Rate relative reductions to up 5.6% with the LibriSpeech benchmark。
論文 参考訳(メタデータ) (2021-12-21T17:49:06Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Relaxed Attention: A Simple Method to Boost Performance of End-to-End
Automatic Speech Recognition [27.530537066239116]
トレーニング中のエンコーダ・デコーダの注意重みに対する均一分布の段階的注入である緩和注意の概念を導入する。
ゆるやかな注意で訓練されたトランスフォーマーは、外部言語モデルを用いたデコーディングにおいて、標準ベースラインモデルよりも一貫して優れていた。
WSJでは,単語誤り率3.65%のトランスフォーマーに基づくエンドツーエンド音声認識のベンチマークを新たに設定した。
論文 参考訳(メタデータ) (2021-07-02T21:01:17Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning
with Self-Knowledge Distillation [11.52842516726486]
本稿では,トランスエンコーダ層に時間削減層を組み込んだTransformer-based ASRモデルを提案する。
また、自己知識蒸留(S-KD)を用いた事前学習型ASRモデルの微調整手法を導入し、ASRモデルの性能をさらに向上させる。
言語モデル(LM)融合により、トランスフォーマーベースのASRモデルのための最新の単語誤り率(WER)結果を達成します。
論文 参考訳(メタデータ) (2021-03-17T21:02:36Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。