論文の概要: Weak-Attention Suppression For Transformer Based Speech Recognition
- arxiv url: http://arxiv.org/abs/2005.09137v1
- Date: Mon, 18 May 2020 23:49:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 00:07:20.328980
- Title: Weak-Attention Suppression For Transformer Based Speech Recognition
- Title(参考訳): 変圧器に基づく音声認識における弱アテンション抑圧
- Authors: Yangyang Shi, Yongqiang Wang, Chunyang Wu, Christian Fuegen, Frank
Zhang, Duc Le, Ching-Feng Yeh, Michael L. Seltzer
- Abstract要約: Weak-Attention Suppression (WAS) を提案する。
We demonstrate that WAS leads to consistent Word Error Rate (WER) improve over strong transformer baselines。
- 参考スコア(独自算出の注目度): 33.30436927415777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers, originally proposed for natural language processing (NLP)
tasks, have recently achieved great success in automatic speech recognition
(ASR). However, adjacent acoustic units (i.e., frames) are highly correlated,
and long-distance dependencies between them are weak, unlike text units. It
suggests that ASR will likely benefit from sparse and localized attention. In
this paper, we propose Weak-Attention Suppression (WAS), a method that
dynamically induces sparsity in attention probabilities. We demonstrate that
WAS leads to consistent Word Error Rate (WER) improvement over strong
transformer baselines. On the widely used LibriSpeech benchmark, our proposed
method reduced WER by 10%$ on test-clean and 5% on test-other for streamable
transformers, resulting in a new state-of-the-art among streaming models.
Further analysis shows that WAS learns to suppress attention of non-critical
and redundant continuous acoustic frames, and is more likely to suppress past
frames rather than future ones. It indicates the importance of lookahead in
attention-based ASR models.
- Abstract(参考訳): 自然言語処理(nlp)タスクのために当初提案されたトランスフォーマーは、最近自動音声認識(asr)で大きな成功を収めている。
しかし、隣接する音響単位(つまりフレーム)は高い相関関係にあり、それら間の長距離依存はテキスト単位と異なり弱い。
asrは、スパースとローカライズされた注意の恩恵を受ける可能性が高い。
本稿では,注意確率の分散を動的に誘導するWeak-Attention Suppression (WAS)を提案する。
我々は,強いトランスフォーマーベースラインに対して,単語誤り率(wer)が一貫した改善をもたらすことを実証する。
広範に使用されているLibriSpeechベンチマークでは,WERをテストクリーンで10%,ストリーム可能なトランスフォーマーで5%削減し,ストリーミングモデルに新たな最先端性をもたらした。
さらなる分析により、WASは非臨界かつ冗長な連続音響フレームの注意を抑えることを学び、将来のフレームよりも過去のフレームを抑える可能性が示唆された。
これは注意に基づくasrモデルにおけるルックアヘッドの重要性を示している。
関連論文リスト
- Spelling Correction through Rewriting of Non-Autoregressive ASR Lattices [8.77712061194924]
本稿では,トランスフォーマーを用いたCTCモデルにより生成されたワードピース格子を書き換える有限状態トランスデューサ(FST)手法を提案する。
本アルゴリズムは,単語から音素への変換を直接行うため,明示的な単語表現を避けることができる。
文脈関連エンティティを用いたテストにおいて, 文誤り率(SER)の15.2%の相対的低減を実現した。
論文 参考訳(メタデータ) (2024-09-24T21:42:25Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Promptformer: Prompted Conformer Transducer for ASR [40.88399609719793]
注意機構の音響表現とテキストコンテキストを融合させるために,ハイパープロンプティングにインスパイアされた新しいメカニズムを導入する。
提案手法は, 高いベースライン上での相対単語誤り率(rWERR)を5.9%低減することを示す。
論文 参考訳(メタデータ) (2024-01-14T20:14:35Z) - Whispering LLaMA: A Cross-Modal Generative Error Correction Framework
for Speech Recognition [10.62060432965311]
自動音声認識(ASR)における生成誤り訂正のための新しいクロスモーダル融合手法を提案する。
提案手法は,音響情報と外部言語表現の両方を利用して,正確な音声の書き起こしコンテキストを生成する。
論文 参考訳(メタデータ) (2023-10-10T09:04:33Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Relaxed Attention: A Simple Method to Boost Performance of End-to-End
Automatic Speech Recognition [27.530537066239116]
トレーニング中のエンコーダ・デコーダの注意重みに対する均一分布の段階的注入である緩和注意の概念を導入する。
ゆるやかな注意で訓練されたトランスフォーマーは、外部言語モデルを用いたデコーディングにおいて、標準ベースラインモデルよりも一貫して優れていた。
WSJでは,単語誤り率3.65%のトランスフォーマーに基づくエンドツーエンド音声認識のベンチマークを新たに設定した。
論文 参考訳(メタデータ) (2021-07-02T21:01:17Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning
with Self-Knowledge Distillation [11.52842516726486]
本稿では,トランスエンコーダ層に時間削減層を組み込んだTransformer-based ASRモデルを提案する。
また、自己知識蒸留(S-KD)を用いた事前学習型ASRモデルの微調整手法を導入し、ASRモデルの性能をさらに向上させる。
言語モデル(LM)融合により、トランスフォーマーベースのASRモデルのための最新の単語誤り率(WER)結果を達成します。
論文 参考訳(メタデータ) (2021-03-17T21:02:36Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。