論文の概要: On the Usefulness of Self-Attention for Automatic Speech Recognition
with Transformers
- arxiv url: http://arxiv.org/abs/2011.04906v1
- Date: Sun, 8 Nov 2020 16:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 08:45:08.596007
- Title: On the Usefulness of Self-Attention for Automatic Speech Recognition
with Transformers
- Title(参考訳): 変圧器を用いた自動音声認識におけるセルフアテンションの有用性について
- Authors: Shucong Zhang, Erfan Loweimi, Peter Bell, Steve Renals
- Abstract要約: 我々はウォールストリートジャーナルとスイッチボードで、より低い自己注意/フィードフォワード層エンコーダを持つモデルを訓練する。
ベースライン変圧器と比較して、性能低下はなく、小さな利得が観察される。
上位エンコーダ層をトレーニングする上で,グローバルな視点は不要である,と結論付けている。
- 参考スコア(独自算出の注目度): 40.991809705930955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention models such as Transformers, which can capture temporal
relationships without being limited by the distance between events, have given
competitive speech recognition results. However, we note the range of the
learned context increases from the lower to upper self-attention layers, whilst
acoustic events often happen within short time spans in a left-to-right order.
This leads to a question: for speech recognition, is a global view of the
entire sequence useful for the upper self-attention encoder layers in
Transformers? To investigate this, we train models with lower
self-attention/upper feed-forward layers encoders on Wall Street Journal and
Switchboard. Compared to baseline Transformers, no performance drop but minor
gains are observed. We further developed a novel metric of the diagonality of
attention matrices and found the learned diagonality indeed increases from the
lower to upper encoder self-attention layers. We conclude the global view is
unnecessary in training upper encoder layers.
- Abstract(参考訳): イベント間の距離に制限されることなく時間的関係を捉えるトランスフォーマなどの自己追尾モデルが、競合音声認識結果を与えている。
しかし, 学習コンテキストの範囲は, 下層から上層へと拡大する一方, 音響事象は左から右の順序で短時間に発生することが多い。
これは、音声認識において、トランスフォーマーの上位自己注意エンコーダ層において、全シーケンスのグローバルビューは有用か?
そこで我々は,ウォールストリートジャーナルやスイッチボード上で,より低い自己注意/フィードフォワード層エンコーダを持つモデルを訓練する。
ベースライントランスと比較して、パフォーマンス低下はなく、小さな利得が観察される。
さらに注意行列の対角性に関する新しい指標を開発し、学習された対角性が下方から上方への自己着脱層に実際に増加することを見出した。
我々は、上層エンコーダ層のトレーニングにおいて、グローバルビューは不要であると結論づける。
関連論文リスト
- On-Chip Learning via Transformer In-Context Learning [0.9353041869660692]
自己アテンションメカニズムでは、各ステップでメインメモリから事前トークンプロジェクションを転送する必要がある。
オンチップの塑性プロセッサを用いて自己注意を計算したニューロモルフィックデコーダのみのトランスモデルを提案する。
論文 参考訳(メタデータ) (2024-10-11T10:54:09Z) - Manifold-Preserving Transformers are Effective for Short-Long Range
Encoding [39.14128923434994]
マルチヘッドセルフアテンションベースのトランスフォーマーは、異なる学習タスクにおいて有望であることを示す。
本研究では,一対のトークン間の層間距離保存を理論的に保証するエンコーダモデルTransJectを提案する。
論文 参考訳(メタデータ) (2023-10-22T06:58:28Z) - Self-supervised Rewiring of Pre-trained Speech Encoders: Towards Faster
Fine-tuning with Less Labels in Speech Processing [66.92823764664206]
我々は、事前訓練された音声エンコーダを精査し、タスク固有のラベルを必要とせず、その表現空間を再構成する。
6つの音声処理タスクに関する実験では,タスクの微調整と一貫したタスク改善の間に顕著な収束速度が得られた。
論文 参考訳(メタデータ) (2022-10-24T08:27:09Z) - Regularizing Transformers With Deep Probabilistic Layers [62.997667081978825]
本研究では,BERT に深層生成モデルを含めることで,より汎用的なモデルを実現する方法を示す。
トランスフォーマーだけでなく、最も関連性の高いエンコーダデコーダベースのLM, seq2seqでも、注意なく有効であることを示す。
論文 参考訳(メタデータ) (2021-08-23T10:17:02Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - When Can Self-Attention Be Replaced by Feed Forward Layers? [40.991809705930955]
エンコーダ上の自己注意層をフィードフォワード層に置き換えると、パフォーマンスが低下せず、多少の利益も得られません。
我々の実験は、自己注意層が音声信号をどのように処理するかについての洞察を提供する。
論文 参考訳(メタデータ) (2020-05-28T10:35:49Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z) - Transformer Transducer: A Streamable Speech Recognition Model with
Transformer Encoders and RNN-T Loss [14.755108017449295]
本稿では,ストリーム音声認識システムで使用可能なTransformerエンコーダを用いたエンドツーエンド音声認識モデルを提案する。
自己アテンションに基づくトランスフォーマー計算ブロックは、オーディオシーケンスとラベルシーケンスの両方を独立に符号化するために使用される。
We present results on the LibriSpeech dataset shows that limiting the left context for self-attention makes decodinglytractable for streaming。
論文 参考訳(メタデータ) (2020-02-07T00:04:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。