論文の概要: Memorization Capacity of Multi-Head Attention in Transformers
- arxiv url: http://arxiv.org/abs/2306.02010v3
- Date: Sat, 2 Mar 2024 07:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 20:51:53.740256
- Title: Memorization Capacity of Multi-Head Attention in Transformers
- Title(参考訳): 変圧器におけるマルチヘッド注意の記憶能力
- Authors: Sadegh Mahdavi, Renjie Liao, Christos Thrampoulidis
- Abstract要約: 本稿では, マルチヘッドアテンション機構の記憶能力について検討し, 記憶可能な事例数について検討する。
視覚変換器の実験結果により,入力データの線形独立性に関する新たな仮定が導入された。
我々の分析では、ソフトマックス演算子の飽和特性によって、異なる注目ヘッドが様々なサンプルシーケンスをどのように扱うかについて光を当てている。
- 参考スコア(独自算出の注目度): 41.63663596609437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have become the go-to architecture for language and vision
tasks, yet their theoretical properties, especially memorization capacity,
remain elusive. This paper investigates the memorization abilities of
multi-head attention mechanisms, examining how many example sequences they can
memorize, as a function of the number of heads and sequence length. Motivated
by experimental findings on vision transformers, we introduce novel assumptions
about the linear independence of input data, distinct from the commonly used
general-position assumption. Under these assumptions, we demonstrate that an
attention layer with $H$ heads, dimension $d$, and context size $n < d$,
featuring $\Theta(Hd^2)$ parameters, can memorize $\Omega(Hn)$ examples. Our
analysis sheds light on how different attention heads handle various example
sequences, aided by the softmax operator's saturation property. We validate our
findings through experiments on synthetic data.
- Abstract(参考訳): トランスフォーマーは言語および視覚タスクのゴートアーキテクチャとなっているが、その理論的特性、特に記憶能力は解明されていない。
本稿では,複数頭部注意機構の記憶能力について検討し,頭部数と配列長の関数として記憶できる例列の数について検討した。
視覚変換器の実験結果により,入力データの線形独立性に関する新たな仮定が導入された。
これらの仮定の下では、$H$ヘッド、次元$d$、コンテキストサイズ$n < d$で、$\Theta(Hd^2)$パラメータを特徴とする注意層が$\Omega(Hn)$例を記憶できることが示される。
本解析では, ソフトマックス演算子の飽和特性により, 異なる注意ヘッドが様々な例列をどのように扱うかを明らかにする。
結果は合成データを用いた実験により検証した。
関連論文リスト
- On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。
線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。
我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文 参考訳(メタデータ) (2024-10-14T02:41:01Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - What Can Transformer Learn with Varying Depth? Case Studies on Sequence Learning Tasks [15.874604623294427]
注意層が1つしかない変圧器は記憶に優れるが、他のタスクでは不足する。
単一注意層が実行可能な単純な操作のクラスを特定し、これらの単純な操作の組み合わせとして、複雑なタスクがアプローチ可能であることを示す。
論文 参考訳(メタデータ) (2024-04-02T02:45:12Z) - Sliceformer: Make Multi-head Attention as Simple as Sorting in
Discriminative Tasks [32.33355192614434]
我々は,Sliceformerと呼ばれるトランスフォーマーの効果的かつ効率的なサロゲートを提案する。
我々のスライスフォーマーは、従来のMHA機構を極めて単純なスライシングソーシングの操作で置き換える。
我々のSliceformerは、Transformerとその変種よりもメモリコストが低く、高速な性能を実現しています。
論文 参考訳(メタデータ) (2023-10-26T14:43:07Z) - Leveraging redundancy in attention with Reuse Transformers [58.614198953733194]
Pairwise dot product-based attentionでは、Transformerは入力依存の方法でトークン間で情報を交換することができる。
典型的なTransformerモデルは、同じシーケンスに対してそのようなペアワイズアテンションスコアを何度も計算する。
本稿では,複数の層において1層で計算された注意点を再利用する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:08:02Z) - Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。
分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-08-10T13:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。