論文の概要: Pit One Against Many: Leveraging Attention-head Embeddings for
Parameter-efficient Multi-head Attention
- arxiv url: http://arxiv.org/abs/2310.07911v1
- Date: Wed, 11 Oct 2023 21:38:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 13:31:07.824175
- Title: Pit One Against Many: Leveraging Attention-head Embeddings for
Parameter-efficient Multi-head Attention
- Title(参考訳): 多数に対する落とし穴1:パラメータ効率の高いマルチヘッドアテンションのためのアテンションヘッド埋め込みの活用
- Authors: Huiyin Xue and Nikolaos Aletras
- Abstract要約: 単一の共有プロジェクション行列と多重ヘッド埋め込み(MHE)のみを使用する代替モジュールを提案する。
我々は、MHEの注意が、代替の注意機構よりもはるかにメモリ効率が高いことを実証的に実証した。
- 参考スコア(独自算出の注目度): 42.92397219764559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling pre-trained language models has resulted in large performance gains
in various natural language processing tasks but comes with a large cost in
memory requirements. Inspired by the position embeddings in transformers, we
aim to simplify and reduce the memory footprint of the multi-head attention
(MHA) mechanism. We propose an alternative module that uses only a single
shared projection matrix and multiple head embeddings (MHE), i.e. one per head.
We empirically demonstrate that our MHE attention is substantially more memory
efficient compared to alternative attention mechanisms while achieving high
predictive performance retention ratio to vanilla MHA on several downstream
tasks. MHE attention only requires a negligible fraction of additional
parameters ($3nd$, where $n$ is the number of attention heads and $d$ the size
of the head embeddings) compared to a single-head attention, while MHA requires
$(3n^2-3n)d^2-3nd$ additional parameters.
- Abstract(参考訳): 事前訓練された言語モデルのスケーリングは、様々な自然言語処理タスクにおいて大きなパフォーマンス向上をもたらすが、メモリ要求の大幅なコストが伴う。
トランスフォーマーにおける位置埋め込みに着想を得て,マルチヘッドアテンション(mha)機構のメモリフットプリントを単純化し,低減することを目的としている。
本論文では,一つの共有投影行列と複数の頭部埋め込み(mhe)のみを用いた代替モジュールを提案する。
いくつかの下流タスクにおいて,バニラMHAに対する高い予測性能保持比を達成しつつ,MHEの注意は,他の注意機構と比較してはるかにメモリ効率が高いことを実証的に実証した。
mheの注意力は、シングルヘッドの注意力と比較すると、追加のパラメータ($3nd$、$n$はアテンションヘッドの数、$d$はヘッド埋め込みのサイズ)を必要とせず、mhaは$(3n^2-3n)d^2-3nd$の追加パラメータを必要とする。
関連論文リスト
- Mixture of Hidden-Dimensions Transformer [50.40325486463241]
隠れ次元の空間性について検討し、訓練されたトランスフォーマーがわずかなトークン次元しか利用していないことを観察する。
スパース条件付アクティベーションアーキテクチャであるMoHD(Mixture of Hidden Dimensions)を提案する。
50%のアクティベーションパラメータが減少し、3.7%のハイパフォーマンスを実現し、3倍のパラメータを一定のアクティベーションコストで拡張する。
論文 参考訳(メタデータ) (2024-12-07T13:15:22Z) - MoH: Multi-Head Attention as Mixture-of-Head Attention [63.67734699877724]
我々は、トランスフォーマーモデルのコアであるマルチヘッドアテンション機構をアップグレードし、以前の精度を維持したり、超えたりしながら効率を向上させる。
そこで我々は,Mixture-of-Head attention (MoH)を提案する。
まず、MoHは各トークンが適切なアテンションヘッドを選択することを可能にし、精度を損なうことなく推論効率を向上させる。
論文 参考訳(メタデータ) (2024-10-15T17:59:44Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - Tuning Pre-trained Model via Moment Probing [62.445281364055795]
本稿では,LP の可能性を探るため,新しい Moment Probing (MP) 法を提案する。
MPは、最終特徴の平均に基づいて線形分類ヘッドを実行する。
当社のMPはLPを著しく上回り、トレーニングコストの低い相手と競争しています。
論文 参考訳(メタデータ) (2023-07-21T04:15:02Z) - Finding the Pillars of Strength for Multi-Head Attention [35.556186723898485]
最近の研究は、MHA(Multi-Head Attention)の問題を明らかにしている。
我々は,グループ・アテンション・ヘッドを用いた自己監督型グループ・制約によって訓練されたグループ・ヘッド・アテンションを提案する。
また、冗長なヘッドを除去するVoting-to-Stay法を提案し、より軽量なトランスを実現する。
論文 参考訳(メタデータ) (2023-05-22T03:44:44Z) - Mixture of Attention Heads: Selecting Attention Heads Per Token [40.04159325505842]
Mixture of Attention Heads (MoA)は、マルチヘッドアテンションとMoEメカニズムを組み合わせた新しいアーキテクチャである。
MoAは、標準的なマルチヘッドアテンション層よりも強力なパフォーマンスを実現している。
MoAはまた、ヘッドのユーティリティを自動的に区別し、モデルの解釈可能性について議論するための新しい視点を提供する。
論文 参考訳(メタデータ) (2022-10-11T04:54:05Z) - A Dynamic Head Importance Computation Mechanism for Neural Machine
Translation [22.784419165117512]
複数のアテンションヘッドを使用する並列アテンション機構は、様々な用途でTransformerモデルの性能を向上させる。
本研究では,入力に対する頭部の重要度を動的に計算する動的頭部重要度計算機構(DHICM)の設計に焦点をあてる。
モデルがすべてのヘッドに同じスコアを割り当てることを防ぐために、余分な損失関数を追加し、より重要なヘッドを特定し、パフォーマンスを即興で向上する。
論文 参考訳(メタデータ) (2021-08-03T09:16:55Z) - Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。
本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文 参考訳(メタデータ) (2020-02-17T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。