論文の概要: Understanding Transformer from the Perspective of Associative Memory
- arxiv url: http://arxiv.org/abs/2505.19488v1
- Date: Mon, 26 May 2025 04:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.159029
- Title: Understanding Transformer from the Perspective of Associative Memory
- Title(参考訳): 連想記憶の観点からのトランスフォーマーの理解
- Authors: Shu Zhong, Mingyu Xu, Tenglong Ao, Guang Shi,
- Abstract要約: まず連想メモリの基本から始めて、メモリ容量とメモリ更新という2つの次元に飛び込みます。
我々は、FFNを連想記憶の一種と見なすことができ、その設計と潜在的な改善についての洞察をもたらすことを示す。
この調査は、トランスフォーマーのイノベーションに新たな洞察を与え、新たな道を開くことを目的としている。
- 参考スコア(独自算出の注目度): 3.181042914489545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we share our reflections and insights on understanding Transformer architectures through the lens of associative memory--a classic psychological concept inspired by human cognition. We start with the basics of associative memory (think simple linear attention) and then dive into two dimensions: Memory Capacity: How much can a Transformer really remember, and how well? We introduce retrieval SNR to measure this and use a kernel perspective to mathematically reveal why Softmax Attention is so effective. We also show how FFNs can be seen as a type of associative memory, leading to insights on their design and potential improvements. Memory Update: How do these memories learn and evolve? We present a unified framework for understanding how different Transformer variants (like DeltaNet and Softmax Attention) update their "knowledge base". This leads us to tackle two provocative questions: 1. Are Transformers fundamentally limited in what they can express, and can we break these barriers? 2. If a Transformer had infinite context, would it become infinitely intelligent? We want to demystify Transformer architecture, offering a clearer understanding of existing designs. This exploration aims to provide fresh insights and spark new avenues for Transformer innovation.
- Abstract(参考訳): 本稿では,人間の認知に触発された古典的心理学的概念である連想記憶のレンズを通してトランスフォーマーアーキテクチャを理解するための考察と洞察を共有する。
まず、連想記憶の基本(単純な線形注意を考えてみてください)から始めて、2つの次元に飛び込みます。
我々はこれを計測するために検索SNRを導入し、カーネルパースペクティブを用いて、なぜSoftmax Attentionがこれほど効果的であるかを数学的に明らかにする。
また、FFNを連想記憶の一種と見なすことができ、その設計や潜在的な改善に対する洞察をもたらすことを示す。
メモリ更新: これらの記憶をどのように学び、進化させるか?
DeltaNetやSoftmax Attentionのような異なるTransformerの変種が、どのようにして"知識ベース"を更新するかを理解するための統一されたフレームワークを提案する。
これにより、挑発的な2つの疑問に取り組みます。
1. トランスフォーマーは、表現できるものに根本的に制限されているか、これらの障壁を破ることができるか?
2. 変圧器が無限の文脈を持つ場合、無限の知性となるか。
トランスフォーマーアーキテクチャをデミスティフィケートし、既存の設計をより明確に理解したいと思っています。
この調査は、トランスフォーマーのイノベーションに新たな洞察を与え、新たな道を開くことを目的としている。
関連論文リスト
- Transformer Explainer: Interactive Learning of Text-Generative Models [65.91049787390692]
Transformer Explainerは、GPT-2モデルを通じてTransformerについて学ぶために非専門家向けに設計されたインタラクティブな可視化ツールである。
ライブのGPT-2インスタンスをユーザのブラウザでローカルに実行し、ユーザが自身の入力を実験し、Transformerの内部コンポーネントとパラメータの協調動作をリアルタイムで観察することを可能にする。
論文 参考訳(メタデータ) (2024-08-08T17:49:07Z) - Do LLMs dream of elephants (when told not to)? Latent concept association and associative memory in transformers [40.964584197528175]
LLM(Large Language Models)は、事実を保存およびリコールする能力を持つ。
LLMは、コンテキスト内の特定のトークンが事実を取得する手がかりとなる連想記憶モデルのように振る舞う。
論文 参考訳(メタデータ) (2024-06-26T14:49:54Z) - Memory-Augmented Generative Adversarial Transformers [0.09320657506524149]
バニラトランスフォーマーアーキテクチャは、事実問題に高い精度で答えるために設計されていない。
我々は、余分な情報を保持するメモリバンクを追加して、標準のTransformerアーキテクチャを拡張します。
我々は、この拡張メモリをGenerative Adversarial NetworkにインスパイアされたTransformerアーキテクチャに追加する。
論文 参考訳(メタデータ) (2024-02-29T14:47:24Z) - Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。
メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。
その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - An Introduction to Transformers [23.915718146956355]
Transformerは、有用なシーケンスやデータポイントのセットを学ぶために使用できるニューラルネットワークコンポーネントである。
本稿では,トランスアーキテクチャの数学的,正確,直感的,クリーンな記述を目指す。
論文 参考訳(メタデータ) (2023-04-20T14:54:19Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。
優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。
Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。
TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文 参考訳(メタデータ) (2022-12-21T15:51:43Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。