論文の概要: You Need to Pay Better Attention: Rethinking the Mathematics of Attention Mechanism
- arxiv url: http://arxiv.org/abs/2403.01643v2
- Date: Thu, 30 May 2024 17:46:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 20:54:36.739930
- Title: You Need to Pay Better Attention: Rethinking the Mathematics of Attention Mechanism
- Title(参考訳): 注意の仕組みの数学を再考する
- Authors: Mehran Hosseini, Peyman Hosseini,
- Abstract要約: Scaled Dot Product Attention (SDPA)は多くの現代のディープラーニングモデルのバックボーンです。
本稿では、最適化、効率性、スーパーアテンションの3つの強化されたアテンションメカニズムを紹介する。
Super Attentionは値に新しい線形変換を導入し、それを左から変換する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaled Dot Product Attention (SDPA) is the backbone of many modern deep-learning models. It is so versatile that it has been used in natural language, vision, and multi-modal domains with very little change compared to its original formulation. This paper discusses why the current formulation is inefficient by delving into the mathematical details of the attention mechanism. We propose three improvements to mitigate these inefficiencies, thereby, introducing three enhanced attention mechanisms: Optimised, Efficient, and Super Attention. Optimised and Efficient Attention have one and two matrix multiplications fewer per head, respectively, and 25% and 50% fewer parameters, respectively, than standard SDPA, but perform similarly to standard SDPA in both vision and natural language tasks. They can be used in all applications where SDPA is used while offering smaller model sizes and faster training and inference without noticeable loss in performance. Super Attention introduces a new linear transformation on the values, transforming them from the left. It outperforms standard SPDA on vision and natural language tasks by up to 17% while having one fewer matrix multiplication per head and 25% fewer parameters than standard SDPA. Consequently, it is also faster than standard SDPA. Super Attention is ideal in applications where the attention layer's context length is fixed, such as Vision Transformers. In addition to providing mathematical reasoning, we evaluate the presented attention mechanisms on several datasets including MNIST, CIFAR100, ImageNet, IMDB Movie Reviews, and Amazon Reviews datasets, as well as combined Europarl and Anki English-Spanish datasets for neural machine translation.
- Abstract(参考訳): Scaled Dot Product Attention (SDPA)は多くの現代のディープラーニングモデルのバックボーンです。
自然言語、視覚、マルチモーダルドメインで使われ、元々の定式化に比べてほとんど変化しないほど多用途である。
本稿では,注意機構の数学的詳細を掘り下げることで,現在の定式化が非効率的である理由を論じる。
そこで我々は,これらの非効率性を緩和する3つの改善点を提案し,最適化,効率,超注意という3つの強化された注意機構を導入した。
最適化された注意と効率的な注意は、それぞれ1頭当たりの行列乗算が1個と2個少なく、25%と50%のパラメータが標準のSDPAよりも少ないが、視覚と自然言語の両方のタスクにおいて標準のSDPAと同様に動作する。
SDPAが使用されるすべてのアプリケーションで、より小さなモデルサイズとより高速なトレーニングと推論を提供しながら、パフォーマンスを著しく損なうことなく使用できる。
Super Attentionは値に新しい線形変換を導入し、それを左から変換する。
視覚と自然言語のタスクにおける標準SPDAを最大17%上回り、1頭当たりの行列乗算が1つ減り、標準SDPAよりも25%低いパラメータを持つ。
したがって、標準のSDPAよりも高速である。
スーパーアテンションは、視覚変換器のような注意層のコンテキスト長が固定されたアプリケーションにおいて理想的である。
数学的推論の他に,MNIST,CIFAR100,ImageNet,IMDB Movie Reviews,Amazon Reviews,EuroparlとAnkiを組み合わせたニューラルマシン翻訳データセットなど,いくつかのデータセットを対象としたアテンションメカニズムの評価を行った。
関連論文リスト
- EchoAtt: Attend, Copy, then Adjust for More Efficient Large Language Models [29.57891007810509]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて優れた性能を示している。
本稿では,レイヤ間の注目パターンの類似性を解析し,活用することにより,トランスフォーマーベースモデルの最適化を目的とした,新しいフレームワークであるEchoAttを紹介する。
TinyLLaMA-1.1Bによる最良の結果は、EchoAttが推論速度を15%改善し、トレーニング速度を25%改善し、パラメータ数を約4%削減し、ゼロショット性能を改善したことを示している。
論文 参考訳(メタデータ) (2024-09-22T21:08:37Z) - PADRe: A Unifying Polynomial Attention Drop-in Replacement for Efficient Vision Transformer [33.71410239689095]
PADReは、トランスフォーマーモデルにおける従来の自己注意機構を置き換えるために設計されたフレームワークである。
PADReの鍵となるコンポーネントは乗法的非線形性(multiplicative linearities)である。
多様なコンピュータビジョンタスクにおける自己注意の代替手段としてのPADReの有効性を評価する。
論文 参考訳(メタデータ) (2024-07-16T01:45:44Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - Simple linear attention language models balance the recall-throughput
tradeoff [40.08746299497935]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。
我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-28T19:28:27Z) - Pit One Against Many: Leveraging Attention-head Embeddings for
Parameter-efficient Multi-head Attention [42.92397219764559]
単一の共有プロジェクション行列と多重ヘッド埋め込み(MHE)のみを使用する代替モジュールを提案する。
我々は、MHEの注意が、代替の注意機構よりもはるかにメモリ効率が高いことを実証的に実証した。
論文 参考訳(メタデータ) (2023-10-11T21:38:40Z) - SEA: Sparse Linear Attention with Estimated Attention Mask [51.22399593954608]
長い連続性は、注意操作の二次的な複雑さのために問題を引き起こす。
従来の研究は、注意行列をスパース化または線形に近似することで複雑さを低下させることを目的としていた。
推定アテンションマスクを用いたSparse linear attentionを提案する。
論文 参考訳(メタデータ) (2023-10-03T03:56:26Z) - Quantizable Transformers: Removing Outliers by Helping Attention Heads
Do Nothing [18.673619610942197]
現代のトランスモデルは、アクティベーションにおいて強い外れ値を学ぶ傾向があるため、定量化が難しい。
我々は、強い外れ値が「ノーオップ」または単に残像の部分的な更新を学習しようとする注意ヘッドの非常に具体的な行動と関連していることを示す。
注意機構に対する2つの簡単な(非依存的な)修正(クリップされたソフトマックスとゲートアテンション)を提案する。
論文 参考訳(メタデータ) (2023-06-22T14:39:04Z) - SwiftFormer: Efficient Additive Attention for Transformer-based
Real-time Mobile Vision Applications [98.90623605283564]
本稿では,2次行列乗算演算を線形要素乗算に効果的に置き換える,新しい効率的な付加的注意機構を提案する。
我々は"SwiftFormer"と呼ばれる一連のモデルを構築し、精度とモバイル推論速度の両面で最先端のパフォーマンスを達成する。
私たちの小さなバージョンでは、iPhone 14で8.5%のImageNet-1Kの精度が達成され、そのレイテンシは0.8msで、MobileViT-v2より2倍速くなります。
論文 参考訳(メタデータ) (2023-03-27T17:59:58Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。