Fugu-MT 論文翻訳(概要): Memorization Capacity of Multi-Head Attention in Transformers

論文の概要: Memorization Capacity of Multi-Head Attention in Transformers

arxiv url: http://arxiv.org/abs/2306.02010v3
Date: Sat, 2 Mar 2024 07:50:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 20:51:53.740256
Title: Memorization Capacity of Multi-Head Attention in Transformers
Title（参考訳）: 変圧器におけるマルチヘッド注意の記憶能力
Authors: Sadegh Mahdavi, Renjie Liao, Christos Thrampoulidis
Abstract要約: 本稿では, マルチヘッドアテンション機構の記憶能力について検討し, 記憶可能な事例数について検討する。視覚変換器の実験結果により,入力データの線形独立性に関する新たな仮定が導入された。我々の分析では、ソフトマックス演算子の飽和特性によって、異なる注目ヘッドが様々なサンプルシーケンスをどのように扱うかについて光を当てている。
参考スコア（独自算出の注目度）: 41.63663596609437
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers have become the go-to architecture for language and vision tasks, yet their theoretical properties, especially memorization capacity, remain elusive. This paper investigates the memorization abilities of multi-head attention mechanisms, examining how many example sequences they can memorize, as a function of the number of heads and sequence length. Motivated by experimental findings on vision transformers, we introduce novel assumptions about the linear independence of input data, distinct from the commonly used general-position assumption. Under these assumptions, we demonstrate that an attention layer with $H$ heads, dimension $d$, and context size $n < d$, featuring $\Theta(Hd^2)$ parameters, can memorize $\Omega(Hn)$ examples. Our analysis sheds light on how different attention heads handle various example sequences, aided by the softmax operator's saturation property. We validate our findings through experiments on synthetic data.
Abstract（参考訳）: トランスフォーマーは言語および視覚タスクのゴートアーキテクチャとなっているが、その理論的特性、特に記憶能力は解明されていない。本稿では,複数頭部注意機構の記憶能力について検討し,頭部数と配列長の関数として記憶できる例列の数について検討した。視覚変換器の実験結果により,入力データの線形独立性に関する新たな仮定が導入された。これらの仮定の下では、$H$ヘッド、次元$d$、コンテキストサイズ$n < d$で、$\Theta(Hd^2)$パラメータを特徴とする注意層が$\Omega(Hn)$例を記憶できることが示される。本解析では, ソフトマックス演算子の飽和特性により, 異なる注意ヘッドが様々な例列をどのように扱うかを明らかにする。結果は合成データを用いた実験により検証した。

関連論文リスト

Transformers as Multi-task Learners: Decoupling Features in Hidden Markov Models [12.112842686827669]
トランスフォーマーベースのモデルは、幅広いタスクにわたってシーケンス学習において顕著な能力を示している。マルチタスク一般化能力の基盤となるメカニズムを明らかにするために,トランスフォーマーの階層的挙動について検討する。我々の明示的な構成は経験的観察と密接に一致し、様々なタスクにわたるシーケンス学習におけるトランスフォーマーの有効性と効率の理論的支援を提供する。
論文参考訳（メタデータ） (2025-06-02T17:39:31Z)
If Attention Serves as a Cognitive Model of Human Memory Retrieval, What is the Plausible Memory Representation? [3.757103053174534]
本研究では,トランスフォーマー文法(TG)の注意機構が,人間の記憶検索の認知モデルとして機能するかどうかを検討する。実験により,TGの注意力は,バニラ変圧器と比較して,セルフペースト読影時間において優れた予測力を発揮することが示された。
論文参考訳（メタデータ） (2025-02-17T05:58:25Z)
On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。 We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文参考訳（メタデータ） (2024-10-29T03:27:56Z)
Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文参考訳（メタデータ） (2024-10-14T02:41:01Z)
Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文参考訳（メタデータ） (2024-09-09T18:10:26Z)
Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads [10.169639612525643]
トランスフォーマーアーキテクチャにおけるMHSAの代替として,Fibottentionと呼ばれる新しいマルチヘッド自己アテンション(MHSA)モデルを提案する。フィボテンションはデータ効率が高く、標準的なMHSAよりも大量のトークンを処理するのに適している。拡張されたフィボナッチ配列に基づいて、構造化されたスパークアテンションを採用しており、ユニークなことに、アテンションヘッドによって異なる。
論文参考訳（メタデータ） (2024-06-27T17:59:40Z)
Initialization is Critical to Whether Transformers Fit Composite Functions by Reasoning or Memorizing [10.206921909332006]
トランスフォーマーは様々なタスクにわたって印象的な能力を示してきたが、構成問題におけるパフォーマンスは議論の的となっている。パラメータ初期化尺度は、モデルが推論(推論に基づく)解を学習するかどうかを決定する上で重要な役割を果たす。さらに、推論(推論に基づく)ソリューションは、複雑さのバイアスが低く、単一のアンカーに対する個々のマッピングを学習できる重要な要素である、と仮定する。
論文参考訳（メタデータ） (2024-05-08T20:23:24Z)
What Can Transformer Learn with Varying Depth? Case Studies on Sequence Learning Tasks [15.874604623294427]
注意層が1つしかない変圧器は記憶に優れるが、他のタスクでは不足する。単一注意層が実行可能な単純な操作のクラスを特定し、これらの単純な操作の組み合わせとして、複雑なタスクがアプローチ可能であることを示す。
論文参考訳（メタデータ） (2024-04-02T02:45:12Z)
Sliceformer: Make Multi-head Attention as Simple as Sorting in Discriminative Tasks [32.33355192614434]
我々は,Sliceformerと呼ばれるトランスフォーマーの効果的かつ効率的なサロゲートを提案する。我々のスライスフォーマーは、従来のMHA機構を極めて単純なスライシングソーシングの操作で置き換える。我々のSliceformerは、Transformerとその変種よりもメモリコストが低く、高速な性能を実現しています。
論文参考訳（メタデータ） (2023-10-26T14:43:07Z)
Leveraging redundancy in attention with Reuse Transformers [58.614198953733194]
Pairwise dot product-based attentionでは、Transformerは入力依存の方法でトークン間で情報を交換することができる。典型的なTransformerモデルは、同じシーケンスに対してそのようなペアワイズアテンションスコアを何度も計算する。本稿では,複数の層において1層で計算された注意点を再利用する新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-10-13T16:08:02Z)
Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文参考訳（メタデータ） (2021-08-10T13:08:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。