論文の概要: Memorization Capacity of Multi-Head Attention in Transformers
- arxiv url: http://arxiv.org/abs/2306.02010v1
- Date: Sat, 3 Jun 2023 05:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 20:44:20.495288
- Title: Memorization Capacity of Multi-Head Attention in Transformers
- Title(参考訳): 変圧器におけるマルチヘッド注意の記憶能力
- Authors: Sadegh Mahdavi, Renjie Liao, Christos Thrampoulidis
- Abstract要約: 我々は、文脈次元が$n$, $d$, $O(Hd2)$パラメータを持つ$H$ヘッドアテンション層が例を記憶できることを示す理論的解析を示す。
記憶能力と注意点数との線形関係を示す。
- 参考スコア(独自算出の注目度): 49.31194854560098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate the memorization capabilities of multi-head
attention in Transformers, motivated by the central role attention plays in
these models. Under a mild linear independence assumption on the input data, we
present a theoretical analysis demonstrating that an $H$-head attention layer
with a context size $n$, dimension $d$, and $O(Hd^2)$ parameters can memorize
$O(Hn)$ examples. We conduct experiments that verify our assumptions on the
image classification task using Vision Transformer. To validate our theoretical
findings, we perform synthetic experiments and show a linear relationship
between memorization capacity and the number of attention heads.
- Abstract(参考訳): 本稿では,トランスフォーマーにおける多頭部注意の記憶能力について検討する。
入力データに対する穏やかな線形独立性仮定の下で、文脈サイズ$n$、次元$d$、および$o(hd^2)$パラメータを持つ$h$-headの注意層が$o(hn)$の例を記憶できることを理論的に示す。
視覚変換器を用いて画像分類タスクの仮定を検証する実験を行った。
理論的知見を検証するために, 合成実験を行い, 記憶能力と注意頭数との線形関係を示す。
関連論文リスト
- If Attention Serves as a Cognitive Model of Human Memory Retrieval, What is the Plausible Memory Representation? [3.757103053174534]
本研究では,トランスフォーマー文法(TG)の注意機構が,人間の記憶検索の認知モデルとして機能するかどうかを検討する。
実験により,TGの注意力は,バニラ変圧器と比較して,セルフペースト読影時間において優れた予測力を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-17T05:58:25Z) - On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。
線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。
我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文 参考訳(メタデータ) (2024-10-14T02:41:01Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads [10.169639612525643]
トランスフォーマーアーキテクチャにおけるMHSAの代替として,Fibottentionと呼ばれる新しいマルチヘッド自己アテンション(MHSA)モデルを提案する。
フィボテンションはデータ効率が高く、標準的なMHSAよりも大量のトークンを処理するのに適している。
拡張されたフィボナッチ配列に基づいて、構造化されたスパークアテンションを採用しており、ユニークなことに、アテンションヘッドによって異なる。
論文 参考訳(メタデータ) (2024-06-27T17:59:40Z) - Initialization is Critical to Whether Transformers Fit Composite Functions by Reasoning or Memorizing [10.206921909332006]
トランスフォーマーは様々なタスクにわたって印象的な能力を示してきたが、構成問題におけるパフォーマンスは議論の的となっている。
パラメータ初期化尺度は、モデルが推論(推論に基づく)解を学習するかどうかを決定する上で重要な役割を果たす。
さらに、推論(推論に基づく)ソリューションは、複雑さのバイアスが低く、単一のアンカーに対する個々のマッピングを学習できる重要な要素である、と仮定する。
論文 参考訳(メタデータ) (2024-05-08T20:23:24Z) - Leveraging redundancy in attention with Reuse Transformers [58.614198953733194]
Pairwise dot product-based attentionでは、Transformerは入力依存の方法でトークン間で情報を交換することができる。
典型的なTransformerモデルは、同じシーケンスに対してそのようなペアワイズアテンションスコアを何度も計算する。
本稿では,複数の層において1層で計算された注意点を再利用する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:08:02Z) - Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。
分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-08-10T13:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。