論文の概要: Pit One Against Many: Leveraging Attention-head Embeddings for
Parameter-efficient Multi-head Attention
- arxiv url: http://arxiv.org/abs/2310.07911v1
- Date: Wed, 11 Oct 2023 21:38:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 13:31:07.824175
- Title: Pit One Against Many: Leveraging Attention-head Embeddings for
Parameter-efficient Multi-head Attention
- Title(参考訳): 多数に対する落とし穴1:パラメータ効率の高いマルチヘッドアテンションのためのアテンションヘッド埋め込みの活用
- Authors: Huiyin Xue and Nikolaos Aletras
- Abstract要約: 単一の共有プロジェクション行列と多重ヘッド埋め込み(MHE)のみを使用する代替モジュールを提案する。
我々は、MHEの注意が、代替の注意機構よりもはるかにメモリ効率が高いことを実証的に実証した。
- 参考スコア(独自算出の注目度): 42.92397219764559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling pre-trained language models has resulted in large performance gains
in various natural language processing tasks but comes with a large cost in
memory requirements. Inspired by the position embeddings in transformers, we
aim to simplify and reduce the memory footprint of the multi-head attention
(MHA) mechanism. We propose an alternative module that uses only a single
shared projection matrix and multiple head embeddings (MHE), i.e. one per head.
We empirically demonstrate that our MHE attention is substantially more memory
efficient compared to alternative attention mechanisms while achieving high
predictive performance retention ratio to vanilla MHA on several downstream
tasks. MHE attention only requires a negligible fraction of additional
parameters ($3nd$, where $n$ is the number of attention heads and $d$ the size
of the head embeddings) compared to a single-head attention, while MHA requires
$(3n^2-3n)d^2-3nd$ additional parameters.
- Abstract(参考訳): 事前訓練された言語モデルのスケーリングは、様々な自然言語処理タスクにおいて大きなパフォーマンス向上をもたらすが、メモリ要求の大幅なコストが伴う。
トランスフォーマーにおける位置埋め込みに着想を得て,マルチヘッドアテンション(mha)機構のメモリフットプリントを単純化し,低減することを目的としている。
本論文では,一つの共有投影行列と複数の頭部埋め込み(mhe)のみを用いた代替モジュールを提案する。
いくつかの下流タスクにおいて,バニラMHAに対する高い予測性能保持比を達成しつつ,MHEの注意は,他の注意機構と比較してはるかにメモリ効率が高いことを実証的に実証した。
mheの注意力は、シングルヘッドの注意力と比較すると、追加のパラメータ($3nd$、$n$はアテンションヘッドの数、$d$はヘッド埋め込みのサイズ)を必要とせず、mhaは$(3n^2-3n)d^2-3nd$の追加パラメータを必要とする。
関連論文リスト
- You Need to Pay Better Attention [0.0]
我々は,効率と学習能力の点で,標準的なマルチヘッド・アテンションを上回る3つの新しいアテンション機構を導入する。
最初のコントリビューションはOptimized Attention(最適化注意)であり、標準的な注意と同様に機能するが、3/4のパラメータを持ち、1頭当たりの行列乗算は少ない。
次に,多くのパラメータと2つの行列乗算の2倍のパラメータしか持たない,標準的注意力に匹敵する効率な注意力を導入する。
最後に、スーパーアテンションを導入し、視力と自然言語処理の両タスクにおいて、標準的注目を集める一方で、パラメータや行列の乗算を少なくする。
論文 参考訳(メタデータ) (2024-03-03T23:40:35Z) - Tuning Pre-trained Model via Moment Probing [62.445281364055795]
本稿では,LP の可能性を探るため,新しい Moment Probing (MP) 法を提案する。
MPは、最終特徴の平均に基づいて線形分類ヘッドを実行する。
当社のMPはLPを著しく上回り、トレーニングコストの低い相手と競争しています。
論文 参考訳(メタデータ) (2023-07-21T04:15:02Z) - Finding the Pillars of Strength for Multi-Head Attention [35.556186723898485]
最近の研究は、MHA(Multi-Head Attention)の問題を明らかにしている。
我々は,グループ・アテンション・ヘッドを用いた自己監督型グループ・制約によって訓練されたグループ・ヘッド・アテンションを提案する。
また、冗長なヘッドを除去するVoting-to-Stay法を提案し、より軽量なトランスを実現する。
論文 参考訳(メタデータ) (2023-05-22T03:44:44Z) - Mixture of Attention Heads: Selecting Attention Heads Per Token [40.04159325505842]
Mixture of Attention Heads (MoA)は、マルチヘッドアテンションとMoEメカニズムを組み合わせた新しいアーキテクチャである。
MoAは、標準的なマルチヘッドアテンション層よりも強力なパフォーマンスを実現している。
MoAはまた、ヘッドのユーティリティを自動的に区別し、モデルの解釈可能性について議論するための新しい視点を提供する。
論文 参考訳(メタデータ) (2022-10-11T04:54:05Z) - Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。
分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-08-10T13:08:34Z) - A Dynamic Head Importance Computation Mechanism for Neural Machine
Translation [22.784419165117512]
複数のアテンションヘッドを使用する並列アテンション機構は、様々な用途でTransformerモデルの性能を向上させる。
本研究では,入力に対する頭部の重要度を動的に計算する動的頭部重要度計算機構(DHICM)の設計に焦点をあてる。
モデルがすべてのヘッドに同じスコアを割り当てることを防ぐために、余分な損失関数を追加し、より重要なヘッドを特定し、パフォーマンスを即興で向上する。
論文 参考訳(メタデータ) (2021-08-03T09:16:55Z) - Repulsive Attention: Rethinking Multi-head Attention as Bayesian
Inference [68.12511526813991]
ベイズの視点からの多面的注目の新たな理解を提供する。
マルチヘッドアテンションにおける反発性を明示的に改善する非パラメトリックアプローチを提案する。
様々な注意モデルや応用実験により、提案された反発的注意が学習された特徴の多様性を向上させることが示されている。
論文 参考訳(メタデータ) (2020-09-20T06:32:23Z) - Multi-Head Attention: Collaborate Instead of Concatenate [85.71058762269374]
我々は,頭部が共有投影を学習できる,協調的な多面的アテンション層を提案する。
実験により、キー/クエリの次元の共有は言語理解、機械翻訳、ビジョンに活用できることを確認した。
論文 参考訳(メタデータ) (2020-06-29T20:28:52Z) - Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。
本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文 参考訳(メタデータ) (2020-02-17T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。