論文の概要: Attention Approximates Sparse Distributed Memory
- arxiv url: http://arxiv.org/abs/2111.05498v1
- Date: Wed, 10 Nov 2021 02:36:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 22:56:32.740629
- Title: Attention Approximates Sparse Distributed Memory
- Title(参考訳): 分散メモリの分散化に注意
- Authors: Trenton Bricken, Cengiz Pehlevan
- Abstract要約: 我々は、Transformer Attention が、あるデータ条件下で Kanerva's Sparse Distributed Memory (SDM) と密接に関連していることを示す。
本稿では,注意-SDMマップの意味を論じ,注意の新たな計算的・生物学的解釈を提供する。
- 参考スコア(独自算出の注目度): 20.864082353441685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Attention has come to be an important mechanism in deep learning, there
remains limited intuition for why it works so well. Here, we show that
Transformer Attention can be closely related under certain data conditions to
Kanerva's Sparse Distributed Memory (SDM), a biologically plausible associative
memory model. We confirm that these conditions are satisfied in pre-trained
GPT2 Transformer models. We discuss the implications of the Attention-SDM map
and provide new computational and biological interpretations of Attention.
- Abstract(参考訳): ディープラーニングでは注意が重要なメカニズムになっているが、なぜそんなにうまく機能するのかという直観は限られている。
そこで本研究では,Transformer Attentionが,生物学的に検証可能な連想記憶モデルであるKanerva's Sparse Distributed Memory (SDM)と密接に関連していることを示す。
我々は,これらの条件が事前学習した GPT2 Transformer モデルで満たされていることを確認した。
注意-sdmマップの意義について考察し,注意の計算と生物学的解釈について述べる。
関連論文リスト
- Predictive Attractor Models [9.947717243638289]
生成特性が望ましい新しいシーケンスメモリアーキテクチャであるtextitPredictive Attractor Models (PAM) を提案する。
PAMは、皮質小柱の側方抑制を通じて、過去の文脈を一意に表現することで破滅的な忘れを避ける。
PAMは, 生物学的に妥当な枠組みで, ヘビアン可塑性規則による局所計算で訓練されていることを示す。
論文 参考訳(メタデータ) (2024-10-03T12:25:01Z) - Class-Discriminative Attention Maps for Vision Transformers [4.096453902709292]
我々は,下流タスクに敏感な説明を生成するために,クラス識別アテンションマップ(CDAM)を開発した。
CDAMは既知のクラスや潜在概念に関して特徴的重要性を推定する。
特に,既存の重要度推定器では十分なクラス感度が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-12-04T21:46:21Z) - Memorisation Cartography: Mapping out the Memorisation-Generalisation
Continuum in Neural Machine Translation [41.816534359921896]
我々は, 5M NMTデータポイントを記憶一般化マップ上に配置する資源を構築するために, 反事実記憶量を用いている。
また,NMTにおけるデータポイントの表面レベル特性とモデル毎のトレーニング信号の記憶の予測方法について述べる。
論文 参考訳(メタデータ) (2023-11-09T14:03:51Z) - Black-box Unsupervised Domain Adaptation with Bi-directional
Atkinson-Shiffrin Memory [59.51934126717572]
Black-box Unsupervised Domain adaptation (UDA)は、トレーニング中にソースデータまたはソースモデルにアクセスすることなく、ターゲットデータのソース予測で学習する。
両方向の記憶機構であるBiMemを提案する。
BiMemは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、さまざまな視覚的タスクに一貫して優れたドメイン適応性能を実現する。
論文 参考訳(メタデータ) (2023-08-25T08:06:48Z) - Sequential Memory with Temporal Predictive Coding [6.228559238589584]
時空間予測符号化 (tPC) という, PC を用いた時空間メモリモデルを提案する。
我々のtPCモデルは、生物学的に妥当なニューラル実装を用いて、シーケンシャルな入力を正確に記憶し、取得できることを示します。
論文 参考訳(メタデータ) (2023-05-19T20:03:31Z) - Memory in humans and deep language models: Linking hypotheses for model
augmentation [1.0485739694839669]
メモリ拡張トランスフォーマーは、人間の記憶文学からの洞察から大きく恩恵を受けることができると我々は主張する。
本稿では、クロスドメインリンク仮説の仕様により、人間の記憶システムからのエビデンスを統合するアプローチについて詳述する。
論文 参考訳(メタデータ) (2022-10-04T19:35:11Z) - ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。
ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。
最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文 参考訳(メタデータ) (2021-10-06T03:53:25Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Kanerva++: extending The Kanerva Machine with differentiable, locally
block allocated latent memory [75.65949969000596]
エピソディックメモリとセマンティックメモリは、人間のメモリモデルの重要なコンポーネントです。
我々は、エピソードメモリとセマンティックメモリのギャップを埋める新しい原理ベイズメモリ割り当てスキームを開発しました。
この割り当て方式がメモリ条件画像生成の性能を向上させることを実証する。
論文 参考訳(メタデータ) (2021-02-20T18:40:40Z) - HM4: Hidden Markov Model with Memory Management for Visual Place
Recognition [54.051025148533554]
自律運転における視覚的位置認識のための隠れマルコフモデルを提案する。
我々のアルゴリズムはHM$4$と呼ばれ、時間的ルックアヘッドを利用して、有望な候補画像をパッシブストレージとアクティブメモリ間で転送する。
固定被覆領域に対して一定の時間と空間推定が可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T08:49:24Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。