論文の概要: Adaptive Sparse and Monotonic Attention for Transformer-based Automatic
Speech Recognition
- arxiv url: http://arxiv.org/abs/2209.15176v1
- Date: Fri, 30 Sep 2022 01:55:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 14:12:46.642788
- Title: Adaptive Sparse and Monotonic Attention for Transformer-based Automatic
Speech Recognition
- Title(参考訳): 変圧器を用いた音声認識における適応スパースと単調アテンション
- Authors: Chendong Zhao, Jianzong Wang, Wen qi Wei, Xiaoyang Qu, Haoqian Wang,
Jing Xiao
- Abstract要約: 本稿では,Transformer ベースの ASR にスパースアテンションとモノトニックアテンションを導入する。
提案手法は,広く使用されている音声認識のベンチマークにおいて,注意機構を効果的に改善できることを示す。
- 参考スコア(独自算出の注目度): 32.45255303465946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Transformer architecture model, based on self-attention and multi-head
attention, has achieved remarkable success in offline end-to-end Automatic
Speech Recognition (ASR). However, self-attention and multi-head attention
cannot be easily applied for streaming or online ASR. For self-attention in
Transformer ASR, the softmax normalization function-based attention mechanism
makes it impossible to highlight important speech information. For multi-head
attention in Transformer ASR, it is not easy to model monotonic alignments in
different heads. To overcome these two limits, we integrate sparse attention
and monotonic attention into Transformer-based ASR. The sparse mechanism
introduces a learned sparsity scheme to enable each self-attention structure to
fit the corresponding head better. The monotonic attention deploys
regularization to prune redundant heads for the multi-head attention structure.
The experiments show that our method can effectively improve the attention
mechanism on widely used benchmarks of speech recognition.
- Abstract(参考訳): セルフアテンションとマルチヘッドアテンションに基づくトランスフォーマーアーキテクチャモデルは、オフラインのエンドツーエンド自動音声認識(asr)において顕著な成功を収めている。
しかし、セルフアテンションやマルチヘッドアテンションはストリーミングやオンラインASRでは簡単には適用できない。
Transformer ASRにおける自己注意のために、ソフトマックス正規化関数に基づくアテンション機構は重要な音声情報の強調を不可能にする。
Transformer ASRにおける多面的注目のために、異なる頭部における単調アライメントをモデル化するのは容易ではない。
これら2つの限界を克服するために、トランスフォーマーベースのASRにスパースアテンションとモノトニックアテンションを統合する。
スパース機構は学習されたスパース性スキームを導入し、各自己注意構造が対応する頭部に適合するようにした。
単調な注意は、多頭部注意構造のための冗長な頭部に正規化を展開する。
本手法は,広く用いられている音声認識ベンチマークの注意機構を効果的に改善できることを示す。
関連論文リスト
- A Primal-Dual Framework for Transformers and Neural Networks [52.814467832108875]
自己注意は、シーケンスモデリングタスクにおけるトランスフォーマーの顕著な成功の鍵である。
自己アテンションは、支持ベクトル回帰問題から導かれる支持ベクトル展開に対応することを示す。
Batch Normalized Attention (Attention-BN) と Scaled Head (Attention-SH) の2つの新しい注意点を提案する。
論文 参考訳(メタデータ) (2024-06-19T19:11:22Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Multi-View Self-Attention Based Transformer for Speaker Recognition [33.21173007319178]
トランスフォーマーモデルは、話者認識などの音声処理タスクに広く利用されている。
本稿では,話者変換器のための多視点自己認識機構を提案する。
提案した話者トランスフォーマーネットワークは,最先端モデルと比較して優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-11T07:03:23Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z) - Capturing Multi-Resolution Context by Dilated Self-Attention [58.69803243323346]
限定的自己意識と拡張メカニズムの組み合わせを提案し,これを拡張的自己意識と呼ぶ。
制限された自己注意は、高分解能でクエリの隣接するフレームに注意を払い、拡張メカニズムは、より低い解像度でそれに出席できるように遠方の情報を要約します。
ASRの結果は、制限された自己アテンションのみと比較して大幅に改善され、計算コストのごく一部をフルシーケンスベースの自己アテンションと比較すると、同様の結果が得られる。
論文 参考訳(メタデータ) (2021-04-07T02:04:18Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - Understanding Self-Attention of Self-Supervised Audio Transformers [74.38550595045855]
自己教師型音声変換器(SAT)は、ASRのような多くの下流音声アプリケーションで大きな成功を収めるが、その動作方法はまだ広く検討されていない。
本研究では,SATにおけるアテンションメカニズムの解析のための複数の戦略を提案する。
論文 参考訳(メタデータ) (2020-06-05T07:23:03Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。