論文の概要: Memorization Capacity of Multi-Head Attention in Transformers
- arxiv url: http://arxiv.org/abs/2306.02010v2
- Date: Thu, 12 Oct 2023 06:46:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 03:43:13.123800
- Title: Memorization Capacity of Multi-Head Attention in Transformers
- Title(参考訳): 変圧器におけるマルチヘッド注意の記憶能力
- Authors: Sadegh Mahdavi, Renjie Liao, Christos Thrampoulidis
- Abstract要約: 本稿では, マルチヘッドアテンション機構の記憶能力について検討し, 記憶可能な事例数について検討する。
視覚変換器の実験結果により,入力データの線形独立性に関する新たな仮定が導入された。
我々の分析では、ソフトマックス演算子の飽和特性によって、異なる注目ヘッドが様々なサンプルシーケンスをどのように扱うかについて光を当てている。
- 参考スコア(独自算出の注目度): 41.63663596609437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have become the go-to architecture for language and vision
tasks, yet their theoretical properties, especially memorization capacity,
remain elusive. This paper investigates the memorization abilities of
multi-head attention mechanisms, examining how many example sequences they can
memorize, as a function of the number of heads and sequence length. Motivated
by experimental findings on vision transformers, we introduce novel assumptions
about the linear independence of input data, distinct from the commonly used
general-position assumption. Under these assumptions, we demonstrate that an
attention layer with $H$ heads, dimension $d$, and context size $n < d$,
featuring $\Theta(Hd^2)$ parameters, can memorize $\Omega(Hn)$ examples. Our
analysis sheds light on how different attention heads handle various example
sequences, aided by the softmax operator's saturation property. We validate our
findings through experiments on synthetic data.
- Abstract(参考訳): トランスフォーマーは言語および視覚タスクのゴートアーキテクチャとなっているが、その理論的特性、特に記憶能力は解明されていない。
本稿では,複数頭部注意機構の記憶能力について検討し,頭部数と配列長の関数として記憶できる例列の数について検討した。
視覚変換器の実験結果により,入力データの線形独立性に関する新たな仮定が導入された。
これらの仮定の下では、$H$ヘッド、次元$d$、コンテキストサイズ$n < d$で、$\Theta(Hd^2)$パラメータを特徴とする注意層が$\Omega(Hn)$例を記憶できることが示される。
本解析では, ソフトマックス演算子の飽和特性により, 異なる注意ヘッドが様々な例列をどのように扱うかを明らかにする。
結果は合成データを用いた実験により検証した。
関連論文リスト
- If Attention Serves as a Cognitive Model of Human Memory Retrieval, What is the Plausible Memory Representation? [3.757103053174534]
本研究では,トランスフォーマー文法(TG)の注意機構が,人間の記憶検索の認知モデルとして機能するかどうかを検討する。
実験により,TGの注意力は,バニラ変圧器と比較して,セルフペースト読影時間において優れた予測力を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-17T05:58:25Z) - On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。
線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。
我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文 参考訳(メタデータ) (2024-10-14T02:41:01Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads [10.169639612525643]
トランスフォーマーアーキテクチャにおけるMHSAの代替として,Fibottentionと呼ばれる新しいマルチヘッド自己アテンション(MHSA)モデルを提案する。
フィボテンションはデータ効率が高く、標準的なMHSAよりも大量のトークンを処理するのに適している。
拡張されたフィボナッチ配列に基づいて、構造化されたスパークアテンションを採用しており、ユニークなことに、アテンションヘッドによって異なる。
論文 参考訳(メタデータ) (2024-06-27T17:59:40Z) - Initialization is Critical to Whether Transformers Fit Composite Functions by Reasoning or Memorizing [10.206921909332006]
トランスフォーマーは様々なタスクにわたって印象的な能力を示してきたが、構成問題におけるパフォーマンスは議論の的となっている。
パラメータ初期化尺度は、モデルが推論(推論に基づく)解を学習するかどうかを決定する上で重要な役割を果たす。
さらに、推論(推論に基づく)ソリューションは、複雑さのバイアスが低く、単一のアンカーに対する個々のマッピングを学習できる重要な要素である、と仮定する。
論文 参考訳(メタデータ) (2024-05-08T20:23:24Z) - Leveraging redundancy in attention with Reuse Transformers [58.614198953733194]
Pairwise dot product-based attentionでは、Transformerは入力依存の方法でトークン間で情報を交換することができる。
典型的なTransformerモデルは、同じシーケンスに対してそのようなペアワイズアテンションスコアを何度も計算する。
本稿では,複数の層において1層で計算された注意点を再利用する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:08:02Z) - Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。
分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-08-10T13:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。