論文の概要: Memorization Capacity of Multi-Head Attention in Transformers
- arxiv url: http://arxiv.org/abs/2306.02010v1
- Date: Sat, 3 Jun 2023 05:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 20:44:20.495288
- Title: Memorization Capacity of Multi-Head Attention in Transformers
- Title(参考訳): 変圧器におけるマルチヘッド注意の記憶能力
- Authors: Sadegh Mahdavi, Renjie Liao, Christos Thrampoulidis
- Abstract要約: 我々は、文脈次元が$n$, $d$, $O(Hd2)$パラメータを持つ$H$ヘッドアテンション層が例を記憶できることを示す理論的解析を示す。
記憶能力と注意点数との線形関係を示す。
- 参考スコア(独自算出の注目度): 49.31194854560098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate the memorization capabilities of multi-head
attention in Transformers, motivated by the central role attention plays in
these models. Under a mild linear independence assumption on the input data, we
present a theoretical analysis demonstrating that an $H$-head attention layer
with a context size $n$, dimension $d$, and $O(Hd^2)$ parameters can memorize
$O(Hn)$ examples. We conduct experiments that verify our assumptions on the
image classification task using Vision Transformer. To validate our theoretical
findings, we perform synthetic experiments and show a linear relationship
between memorization capacity and the number of attention heads.
- Abstract(参考訳): 本稿では,トランスフォーマーにおける多頭部注意の記憶能力について検討する。
入力データに対する穏やかな線形独立性仮定の下で、文脈サイズ$n$、次元$d$、および$o(hd^2)$パラメータを持つ$h$-headの注意層が$o(hn)$の例を記憶できることを理論的に示す。
視覚変換器を用いて画像分類タスクの仮定を検証する実験を行った。
理論的知見を検証するために, 合成実験を行い, 記憶能力と注意頭数との線形関係を示す。
関連論文リスト
- On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。
線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。
我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文 参考訳(メタデータ) (2024-10-14T02:41:01Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - What Can Transformer Learn with Varying Depth? Case Studies on Sequence Learning Tasks [15.874604623294427]
注意層が1つしかない変圧器は記憶に優れるが、他のタスクでは不足する。
単一注意層が実行可能な単純な操作のクラスを特定し、これらの単純な操作の組み合わせとして、複雑なタスクがアプローチ可能であることを示す。
論文 参考訳(メタデータ) (2024-04-02T02:45:12Z) - Sliceformer: Make Multi-head Attention as Simple as Sorting in
Discriminative Tasks [32.33355192614434]
我々は,Sliceformerと呼ばれるトランスフォーマーの効果的かつ効率的なサロゲートを提案する。
我々のスライスフォーマーは、従来のMHA機構を極めて単純なスライシングソーシングの操作で置き換える。
我々のSliceformerは、Transformerとその変種よりもメモリコストが低く、高速な性能を実現しています。
論文 参考訳(メタデータ) (2023-10-26T14:43:07Z) - Leveraging redundancy in attention with Reuse Transformers [58.614198953733194]
Pairwise dot product-based attentionでは、Transformerは入力依存の方法でトークン間で情報を交換することができる。
典型的なTransformerモデルは、同じシーケンスに対してそのようなペアワイズアテンションスコアを何度も計算する。
本稿では,複数の層において1層で計算された注意点を再利用する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:08:02Z) - Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。
分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-08-10T13:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。