論文の概要: Analysis of Self-Attention Head Diversity for Conformer-based Automatic
Speech Recognition
- arxiv url: http://arxiv.org/abs/2209.06096v1
- Date: Tue, 13 Sep 2022 15:50:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 13:10:04.816137
- Title: Analysis of Self-Attention Head Diversity for Conformer-based Automatic
Speech Recognition
- Title(参考訳): コンフォーメータ型自動音声認識における自己愛頭部の多様性の解析
- Authors: Kartik Audhkhasi, Yinghui Huang, Bhuvana Ramabhadran, Pedro J. Moreno
- Abstract要約: 頭部の多様性を高めるためのアプローチについて検討する。
トレーニング中に多様性を促進させる補助的損失関数を導入することは、より効果的なアプローチであることを示す。
最後に,アテンションヘッドの多様性と,頭部パラメータの勾配の類似性とを関連づける。
- 参考スコア(独自算出の注目度): 36.53453860656191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention layers are an integral part of modern end-to-end automatic speech
recognition systems, for instance as part of the Transformer or Conformer
architecture. Attention is typically multi-headed, where each head has an
independent set of learned parameters and operates on the same input feature
sequence. The output of multi-headed attention is a fusion of the outputs from
the individual heads. We empirically analyze the diversity between
representations produced by the different attention heads and demonstrate that
the heads become highly correlated during the course of training. We
investigate a few approaches to increasing attention head diversity, including
using different attention mechanisms for each head and auxiliary training loss
functions to promote head diversity. We show that introducing
diversity-promoting auxiliary loss functions during training is a more
effective approach, and obtain WER improvements of up to 6% relative on the
Librispeech corpus. Finally, we draw a connection between the diversity of
attention heads and the similarity of the gradients of head parameters.
- Abstract(参考訳): アテンション層は、トランスフォーマーやコンフォーメータアーキテクチャの一部として、現代のエンドツーエンド自動音声認識システムにおいて不可欠な部分である。
注意は通常マルチヘッドで、各ヘッドは独立した学習パラメータセットを持ち、同じ入力特徴シーケンスで動作する。
マルチヘッドアテンションの出力は、個々のヘッドからの出力の融合である。
我々は,異なる注意頭による表現の多様性を経験的に分析し,訓練中に頭部が高度に相関していることを示す。
頭部の多様性を促進するために,各頭部に対する注意機構の違いや補助訓練損失関数の利用など,頭部の多様性向上のためのいくつかのアプローチについて検討した。
学習中における多様性向上補助損失関数の導入はより効果的なアプローチであり,librispeechコーパスに対して最大6%の改善が得られた。
最後に,注意ヘッドの多様性と頭部パラメータの勾配の類似性との関係について考察する。
関連論文リスト
- Picking the Underused Heads: A Network Pruning Perspective of Attention
Head Selection for Fusing Dialogue Coreference Information [50.41829484199252]
マルチヘッド自己アテンション機構を持つトランスフォーマーベースのモデルは自然言語処理で広く利用されている。
ネットワークプルーニングの観点から,特徴注入のためのアテンションヘッドの選択と操作戦略について検討する。
論文 参考訳(メタデータ) (2023-12-15T05:27:24Z) - Finding the Pillars of Strength for Multi-Head Attention [35.556186723898485]
最近の研究は、MHA(Multi-Head Attention)の問題を明らかにしている。
我々は,グループ・アテンション・ヘッドを用いた自己監督型グループ・制約によって訓練されたグループ・ヘッド・アテンションを提案する。
また、冗長なヘッドを除去するVoting-to-Stay法を提案し、より軽量なトランスを実現する。
論文 参考訳(メタデータ) (2023-05-22T03:44:44Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - A Dynamic Head Importance Computation Mechanism for Neural Machine
Translation [22.784419165117512]
複数のアテンションヘッドを使用する並列アテンション機構は、様々な用途でTransformerモデルの性能を向上させる。
本研究では,入力に対する頭部の重要度を動的に計算する動的頭部重要度計算機構(DHICM)の設計に焦点をあてる。
モデルがすべてのヘッドに同じスコアを割り当てることを防ぐために、余分な損失関数を追加し、より重要なヘッドを特定し、パフォーマンスを即興で向上する。
論文 参考訳(メタデータ) (2021-08-03T09:16:55Z) - The heads hypothesis: A unifying statistical approach towards
understanding multi-headed attention in BERT [18.13834903235249]
マルチヘッドアテンションヘッドはトランスベースのモデルにおける主役です。
対向きの注目度の高いトークン間の関係に基づいて、各注意ヘッドの役割を分類する異なる方法が提案されている。
我々は,注意ヘッドのすべての役割に一般化する単純かつ効果的なスコアを定式化し,このスコアに仮説テストを適用してロバストな推論を行う。
論文 参考訳(メタデータ) (2021-01-22T14:10:59Z) - Multi-Head Self-Attention with Role-Guided Masks [20.955992710112216]
本稿では,先行作業における役割を重要視する上での注意を導く手法を提案する。
これを行うには、入力の特定の部分に出席する頭を制限する役割固有のマスクを定義します。
7つの異なるデータセットを用いたテキスト分類と機械翻訳の実験により,本手法が競合注意ベース,CNN,RNNベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2020-12-22T21:34:02Z) - Alleviating the Inequality of Attention Heads for Neural Machine
Translation [60.34732031315221]
近年の研究では、トランスフォーマーのアテンションヘッドが等しくないことが示されている。
簡単なマスキング手法として、HeadMaskを2つの特定の方法で提案する。
実験では、複数の言語ペアで翻訳の改善が達成されている。
論文 参考訳(メタデータ) (2020-09-21T08:14:30Z) - Repulsive Attention: Rethinking Multi-head Attention as Bayesian
Inference [68.12511526813991]
ベイズの視点からの多面的注目の新たな理解を提供する。
マルチヘッドアテンションにおける反発性を明示的に改善する非パラメトリックアプローチを提案する。
様々な注意モデルや応用実験により、提案された反発的注意が学習された特徴の多様性を向上させることが示されている。
論文 参考訳(メタデータ) (2020-09-20T06:32:23Z) - Multi-Head Attention: Collaborate Instead of Concatenate [85.71058762269374]
我々は,頭部が共有投影を学習できる,協調的な多面的アテンション層を提案する。
実験により、キー/クエリの次元の共有は言語理解、機械翻訳、ビジョンに活用できることを確認した。
論文 参考訳(メタデータ) (2020-06-29T20:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。