Fugu-MT 論文翻訳(概要): Memorization Capacity of Multi-Head Attention in Transformers

論文の概要: Memorization Capacity of Multi-Head Attention in Transformers

arxiv url: http://arxiv.org/abs/2306.02010v1
Date: Sat, 3 Jun 2023 05:45:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-06 20:44:20.495288
Title: Memorization Capacity of Multi-Head Attention in Transformers
Title（参考訳）: 変圧器におけるマルチヘッド注意の記憶能力
Authors: Sadegh Mahdavi, Renjie Liao, Christos Thrampoulidis
Abstract要約: 我々は、文脈次元が$n$, $d$, $O(Hd2)$パラメータを持つ$H$ヘッドアテンション層が例を記憶できることを示す理論的解析を示す。記憶能力と注意点数との線形関係を示す。
参考スコア（独自算出の注目度）: 49.31194854560098
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we investigate the memorization capabilities of multi-head attention in Transformers, motivated by the central role attention plays in these models. Under a mild linear independence assumption on the input data, we present a theoretical analysis demonstrating that an $H$-head attention layer with a context size $n$, dimension $d$, and $O(Hd^2)$ parameters can memorize $O(Hn)$ examples. We conduct experiments that verify our assumptions on the image classification task using Vision Transformer. To validate our theoretical findings, we perform synthetic experiments and show a linear relationship between memorization capacity and the number of attention heads.
Abstract（参考訳）: 本稿では,トランスフォーマーにおける多頭部注意の記憶能力について検討する。入力データに対する穏やかな線形独立性仮定の下で、文脈サイズ$n$、次元$d$、および$o(hd^2)$パラメータを持つ$h$-headの注意層が$o(hn)$の例を記憶できることを理論的に示す。視覚変換器を用いて画像分類タスクの仮定を検証する実験を行った。理論的知見を検証するために, 合成実験を行い, 記憶能力と注意頭数との線形関係を示す。

関連論文リスト

Transformers as Multi-task Learners: Decoupling Features in Hidden Markov Models [12.112842686827669]
トランスフォーマーベースのモデルは、幅広いタスクにわたってシーケンス学習において顕著な能力を示している。マルチタスク一般化能力の基盤となるメカニズムを明らかにするために,トランスフォーマーの階層的挙動について検討する。我々の明示的な構成は経験的観察と密接に一致し、様々なタスクにわたるシーケンス学習におけるトランスフォーマーの有効性と効率の理論的支援を提供する。
論文参考訳（メタデータ） (2025-06-02T17:39:31Z)
If Attention Serves as a Cognitive Model of Human Memory Retrieval, What is the Plausible Memory Representation? [3.757103053174534]
本研究では,トランスフォーマー文法(TG)の注意機構が,人間の記憶検索の認知モデルとして機能するかどうかを検討する。実験により,TGの注意力は,バニラ変圧器と比較して,セルフペースト読影時間において優れた予測力を発揮することが示された。
論文参考訳（メタデータ） (2025-02-17T05:58:25Z)
On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。 We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文参考訳（メタデータ） (2024-10-29T03:27:56Z)
Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文参考訳（メタデータ） (2024-10-14T02:41:01Z)
Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文参考訳（メタデータ） (2024-09-09T18:10:26Z)
Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads [10.169639612525643]
トランスフォーマーアーキテクチャにおけるMHSAの代替として,Fibottentionと呼ばれる新しいマルチヘッド自己アテンション(MHSA)モデルを提案する。フィボテンションはデータ効率が高く、標準的なMHSAよりも大量のトークンを処理するのに適している。拡張されたフィボナッチ配列に基づいて、構造化されたスパークアテンションを採用しており、ユニークなことに、アテンションヘッドによって異なる。
論文参考訳（メタデータ） (2024-06-27T17:59:40Z)
Initialization is Critical to Whether Transformers Fit Composite Functions by Reasoning or Memorizing [10.206921909332006]
トランスフォーマーは様々なタスクにわたって印象的な能力を示してきたが、構成問題におけるパフォーマンスは議論の的となっている。パラメータ初期化尺度は、モデルが推論(推論に基づく)解を学習するかどうかを決定する上で重要な役割を果たす。さらに、推論(推論に基づく)ソリューションは、複雑さのバイアスが低く、単一のアンカーに対する個々のマッピングを学習できる重要な要素である、と仮定する。
論文参考訳（メタデータ） (2024-05-08T20:23:24Z)
What Can Transformer Learn with Varying Depth? Case Studies on Sequence Learning Tasks [15.874604623294427]
注意層が1つしかない変圧器は記憶に優れるが、他のタスクでは不足する。単一注意層が実行可能な単純な操作のクラスを特定し、これらの単純な操作の組み合わせとして、複雑なタスクがアプローチ可能であることを示す。
論文参考訳（メタデータ） (2024-04-02T02:45:12Z)
Sliceformer: Make Multi-head Attention as Simple as Sorting in Discriminative Tasks [32.33355192614434]
我々は,Sliceformerと呼ばれるトランスフォーマーの効果的かつ効率的なサロゲートを提案する。我々のスライスフォーマーは、従来のMHA機構を極めて単純なスライシングソーシングの操作で置き換える。我々のSliceformerは、Transformerとその変種よりもメモリコストが低く、高速な性能を実現しています。
論文参考訳（メタデータ） (2023-10-26T14:43:07Z)
Leveraging redundancy in attention with Reuse Transformers [58.614198953733194]
Pairwise dot product-based attentionでは、Transformerは入力依存の方法でトークン間で情報を交換することができる。典型的なTransformerモデルは、同じシーケンスに対してそのようなペアワイズアテンションスコアを何度も計算する。本稿では,複数の層において1層で計算された注意点を再利用する新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-10-13T16:08:02Z)
Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文参考訳（メタデータ） (2021-08-10T13:08:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。