論文の概要: Finding the Pillars of Strength for Multi-Head Attention
- arxiv url: http://arxiv.org/abs/2305.14380v2
- Date: Sun, 15 Oct 2023 04:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 04:57:46.381079
- Title: Finding the Pillars of Strength for Multi-Head Attention
- Title(参考訳): 多頭注意のための強度柱の探索
- Authors: Jinjie Ni, Rui Mao, Zonglin Yang, Han Lei, Erik Cambria
- Abstract要約: 最近の研究は、MHA(Multi-Head Attention)の問題を明らかにしている。
我々は,グループ・アテンション・ヘッドを用いた自己監督型グループ・制約によって訓練されたグループ・ヘッド・アテンションを提案する。
また、冗長なヘッドを除去するVoting-to-Stay法を提案し、より軽量なトランスを実現する。
- 参考スコア(独自算出の注目度): 35.556186723898485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have revealed some issues of Multi-Head Attention (MHA), e.g.,
redundancy and over-parameterization. Specifically, the heads of MHA were
originally designed to attend to information from different representation
subspaces, whereas prior studies found that some attention heads likely learn
similar features and can be pruned without harming performance. Inspired by the
minimum-redundancy feature selection, we assume that focusing on the most
representative and distinctive features with minimum resources can mitigate the
above issues and lead to more effective and efficient MHAs. In particular, we
propose Grouped Head Attention, trained with a self-supervised group constraint
that group attention heads, where each group focuses on an essential but
distinctive feature subset. We additionally propose a Voting-to-Stay procedure
to remove redundant heads, thus achieving a transformer with lighter weights.
Moreover, our method achieves significant performance gains on three
well-established tasks while considerably compressing parameters.
- Abstract(参考訳): 近年の研究では、冗長性や過パラメータ化といったマルチヘッド注意(MHA)の問題が指摘されている。
特に、MHAの頭はもともと異なる表現部分空間からの情報に対応するように設計されていたが、以前の研究では、一部の注意頭は類似した特徴を学習し、性能を損なうことなく刈り取られる可能性があることが判明した。
最小冗長性の特徴選択に触発されて、最小リソースで最も代表的で独特な特徴に注目することは、上記の問題を緩和し、より効率的かつ効率的なMHAをもたらすと仮定する。
特に,各群が本質的かつ特有な特徴部分集合に注目する,グループ注意頭という,グループ注意頭という,自己教師付きグループ制約を訓練したグループ頭注意を提案する。
さらに,冗長な頭部を除去し,軽量の変圧器を実現するための投票手続きを提案する。
さらに,提案手法は,パラメータをかなり圧縮しながら,三つの確固としたタスクに対して大幅な性能向上を実現する。
関連論文リスト
- MoH: Multi-Head Attention as Mixture-of-Head Attention [63.67734699877724]
我々は、トランスフォーマーモデルのコアであるマルチヘッドアテンション機構をアップグレードし、以前の精度を維持したり、超えたりしながら効率を向上させる。
そこで我々は,Mixture-of-Head attention (MoH)を提案する。
まず、MoHは各トークンが適切なアテンションヘッドを選択することを可能にし、精度を損なうことなく推論効率を向上させる。
論文 参考訳(メタデータ) (2024-10-15T17:59:44Z) - Pit One Against Many: Leveraging Attention-head Embeddings for
Parameter-efficient Multi-head Attention [42.92397219764559]
単一の共有プロジェクション行列と多重ヘッド埋め込み(MHE)のみを使用する代替モジュールを提案する。
我々は、MHEの注意が、代替の注意機構よりもはるかにメモリ効率が高いことを実証的に実証した。
論文 参考訳(メタデータ) (2023-10-11T21:38:40Z) - Rethinking Label Smoothing on Multi-hop Question Answering [87.68071401870283]
MHQA (Multi-Hop Question Answering) は質問応答において重要な分野である。
本研究では,マルチホップ推論の性能を制限する主要な要因を解析する。
学習プロセスに不確実性を組み込んだ新しいラベル平滑化手法F1 Smoothingを提案する。
論文 参考訳(メタデータ) (2022-12-19T14:48:08Z) - Analysis of Self-Attention Head Diversity for Conformer-based Automatic
Speech Recognition [36.53453860656191]
頭部の多様性を高めるためのアプローチについて検討する。
トレーニング中に多様性を促進させる補助的損失関数を導入することは、より効果的なアプローチであることを示す。
最後に,アテンションヘッドの多様性と,頭部パラメータの勾配の類似性とを関連づける。
論文 参考訳(メタデータ) (2022-09-13T15:50:03Z) - Paying More Attention to Self-attention: Improving Pre-trained Language
Models via Attention Guiding [35.958164594419515]
事前学習された言語モデル(PLM)は、幅広い情報検索や自然言語処理タスクに有効であることを示した。
PLMの中核として、多頭自尊心は、異なる位置からの情報に共同で出席する能力に訴えている。
本稿では,2種類の注意誘導手法,すなわち地図識別誘導法(MDG)と注意パターンデコリレーション誘導法(PDG)を提案する。
論文 参考訳(メタデータ) (2022-04-06T16:22:02Z) - A Dynamic Head Importance Computation Mechanism for Neural Machine
Translation [22.784419165117512]
複数のアテンションヘッドを使用する並列アテンション機構は、様々な用途でTransformerモデルの性能を向上させる。
本研究では,入力に対する頭部の重要度を動的に計算する動的頭部重要度計算機構(DHICM)の設計に焦点をあてる。
モデルがすべてのヘッドに同じスコアを割り当てることを防ぐために、余分な損失関数を追加し、より重要なヘッドを特定し、パフォーマンスを即興で向上する。
論文 参考訳(メタデータ) (2021-08-03T09:16:55Z) - Repulsive Attention: Rethinking Multi-head Attention as Bayesian
Inference [68.12511526813991]
ベイズの視点からの多面的注目の新たな理解を提供する。
マルチヘッドアテンションにおける反発性を明示的に改善する非パラメトリックアプローチを提案する。
様々な注意モデルや応用実験により、提案された反発的注意が学習された特徴の多様性を向上させることが示されている。
論文 参考訳(メタデータ) (2020-09-20T06:32:23Z) - Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。
本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文 参考訳(メタデータ) (2020-02-17T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。