論文の概要: You Need to Pay Better Attention: Rethinking the Mathematics of Attention Mechanism
- arxiv url: http://arxiv.org/abs/2403.01643v2
- Date: Thu, 30 May 2024 17:46:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 20:54:36.739930
- Title: You Need to Pay Better Attention: Rethinking the Mathematics of Attention Mechanism
- Title(参考訳): 注意の仕組みの数学を再考する
- Authors: Mehran Hosseini, Peyman Hosseini,
- Abstract要約: Scaled Dot Product Attention (SDPA)は多くの現代のディープラーニングモデルのバックボーンです。
本稿では、最適化、効率性、スーパーアテンションの3つの強化されたアテンションメカニズムを紹介する。
Super Attentionは値に新しい線形変換を導入し、それを左から変換する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaled Dot Product Attention (SDPA) is the backbone of many modern deep-learning models. It is so versatile that it has been used in natural language, vision, and multi-modal domains with very little change compared to its original formulation. This paper discusses why the current formulation is inefficient by delving into the mathematical details of the attention mechanism. We propose three improvements to mitigate these inefficiencies, thereby, introducing three enhanced attention mechanisms: Optimised, Efficient, and Super Attention. Optimised and Efficient Attention have one and two matrix multiplications fewer per head, respectively, and 25% and 50% fewer parameters, respectively, than standard SDPA, but perform similarly to standard SDPA in both vision and natural language tasks. They can be used in all applications where SDPA is used while offering smaller model sizes and faster training and inference without noticeable loss in performance. Super Attention introduces a new linear transformation on the values, transforming them from the left. It outperforms standard SPDA on vision and natural language tasks by up to 17% while having one fewer matrix multiplication per head and 25% fewer parameters than standard SDPA. Consequently, it is also faster than standard SDPA. Super Attention is ideal in applications where the attention layer's context length is fixed, such as Vision Transformers. In addition to providing mathematical reasoning, we evaluate the presented attention mechanisms on several datasets including MNIST, CIFAR100, ImageNet, IMDB Movie Reviews, and Amazon Reviews datasets, as well as combined Europarl and Anki English-Spanish datasets for neural machine translation.
- Abstract(参考訳): Scaled Dot Product Attention (SDPA)は多くの現代のディープラーニングモデルのバックボーンです。
自然言語、視覚、マルチモーダルドメインで使われ、元々の定式化に比べてほとんど変化しないほど多用途である。
本稿では,注意機構の数学的詳細を掘り下げることで,現在の定式化が非効率的である理由を論じる。
そこで我々は,これらの非効率性を緩和する3つの改善点を提案し,最適化,効率,超注意という3つの強化された注意機構を導入した。
最適化された注意と効率的な注意は、それぞれ1頭当たりの行列乗算が1個と2個少なく、25%と50%のパラメータが標準のSDPAよりも少ないが、視覚と自然言語の両方のタスクにおいて標準のSDPAと同様に動作する。
SDPAが使用されるすべてのアプリケーションで、より小さなモデルサイズとより高速なトレーニングと推論を提供しながら、パフォーマンスを著しく損なうことなく使用できる。
Super Attentionは値に新しい線形変換を導入し、それを左から変換する。
視覚と自然言語のタスクにおける標準SPDAを最大17%上回り、1頭当たりの行列乗算が1つ減り、標準SDPAよりも25%低いパラメータを持つ。
したがって、標準のSDPAよりも高速である。
スーパーアテンションは、視覚変換器のような注意層のコンテキスト長が固定されたアプリケーションにおいて理想的である。
数学的推論の他に,MNIST,CIFAR100,ImageNet,IMDB Movie Reviews,Amazon Reviews,EuroparlとAnkiを組み合わせたニューラルマシン翻訳データセットなど,いくつかのデータセットを対象としたアテンションメカニズムの評価を行った。
関連論文リスト
- Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。
微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。
これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文 参考訳(メタデータ) (2025-02-01T04:18:28Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - OP-LoRA: The Blessing of Dimensionality [93.08208871549557]
低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にする。
しばしば最適化の課題を提起するが、収束性は低い。
推論コストを増大させることなく、トレーニングを加速する過剰パラメータ化アプローチを導入する。
視覚言語タスクの改善、特に画像生成の顕著な向上を実現している。
論文 参考訳(メタデータ) (2024-12-13T18:55:19Z) - LiteVAR: Compressing Visual Autoregressive Modelling with Efficient Attention and Quantization [17.190984773586745]
現在のARベースのビジュアル生成モデルは、リソース制約のあるデバイスに適用性を制限するために、かなりの計算資源を必要とする。
性能を維持しつつ,VARモデルの効率を向上させるために,効率的な注意機構と低ビット量子化手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T07:32:36Z) - Propulsion: Steering LLM with Tiny Fine-Tuning [0.0]
本稿では,タスク固有性能を最適化するために,新しいパラメータ最適化手法であるPropulsionを提案する。
物理運動の制御調整の概念にインスパイアされた推進は、事前訓練されたモデルの特定の次元を選択的に再スケールする。
我々の理論解析はニューラル・タンジェント・カーネル(NTK)理論によって支えられ、推進は訓練可能なパラメータがはるかに少ない完全な微調整の性能を近似することを示している。
論文 参考訳(メタデータ) (2024-09-17T06:51:59Z) - Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in
Self-Refined Open-Source Models [53.859446823312126]
SoTAは7Bから65Bまでのさまざまなサイズのオープンソースモデルを平均して、ベースラインのパフォーマンスから8.2%改善している。
厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善と、高い創造性、オープンエンドタスクの25.39%の改善を示している。
論文 参考訳(メタデータ) (2023-10-11T15:56:00Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Accurate and Structured Pruning for Efficient Automatic Speech
Recognition [23.897482741744117]
本稿では,コンバータモデルのモデルサイズと推論コストを削減するための新しい圧縮手法を提案する。
提案手法は, モデルサイズを50%削減し, 推論コストを28%削減し, 性能損失を最小限に抑える。
論文 参考訳(メタデータ) (2023-05-31T04:31:16Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。