論文の概要: Emergence of Episodic Memory in Transformers: Characterizing Changes in Temporal Structure of Attention Scores During Training
- arxiv url: http://arxiv.org/abs/2502.06902v1
- Date: Sun, 09 Feb 2025 20:20:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:42.970681
- Title: Emergence of Episodic Memory in Transformers: Characterizing Changes in Temporal Structure of Attention Scores During Training
- Title(参考訳): 変圧器におけるエピソード記憶の出現:訓練中の注意スコアの時間構造の変化の特徴
- Authors: Deven Mahesh Mistry, Anooshka Bajaj, Yash Aggarwal, Sahaj Singh Maini, Zoran Tiganj,
- Abstract要約: 我々は,様々な大きさのGPT-2モデルの注意点と出力を分析した。
注意点全体では,時間的連続性,優性,再発など,ヒトのエピソード記憶に特徴的な効果が観察された。
トランスフォーマーは、コンテキスト内学習中に情報を時間的に整理し、その類似点と人間の記憶と学習の違いに光を当てる。
- 参考スコア(独自算出の注目度): 1.1417805445492082
- License:
- Abstract: We investigate in-context temporal biases in attention heads and transformer outputs. Using cognitive science methodologies, we analyze attention scores and outputs of the GPT-2 models of varying sizes. Across attention heads, we observe effects characteristic of human episodic memory, including temporal contiguity, primacy and recency. Transformer outputs demonstrate a tendency toward in-context serial recall. Importantly, this effect is eliminated after the ablation of the induction heads, which are the driving force behind the contiguity effect. Our findings offer insights into how transformers organize information temporally during in-context learning, shedding light on their similarities and differences with human memory and learning.
- Abstract(参考訳): 注視頭と変圧器出力の文脈内時間偏差について検討する。
認知科学の方法論を用いて,様々な大きさのGPT-2モデルの注意点と出力を分析した。
注意点全体では,時間的連続性,優性,再発など,ヒトのエピソード記憶に特徴的な効果が観察された。
トランスフォーマー出力は、コンテキスト内シリアルリコールの傾向を示す。
重要なことに、この効果は、連続効果の背後にある駆動力である誘導ヘッドのアブレーション後に排除される。
我々の研究は、コンテクスト内学習中にトランスフォーマーが情報を時間的に整理し、その類似性や人間の記憶と学習の違いに光を当てる方法についての洞察を提供する。
関連論文リスト
- If Attention Serves as a Cognitive Model of Human Memory Retrieval, What is the Plausible Memory Representation? [3.757103053174534]
本研究では,トランスフォーマー文法(TG)の注意機構が,人間の記憶検索の認知モデルとして機能するかどうかを検討する。
実験により,TGの注意力は,バニラ変圧器と比較して,セルフペースト読影時間において優れた予測力を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-17T05:58:25Z) - A recurrent vision transformer shows signatures of primate visual attention [0.0]
本稿では、自己アテンションとリカレントメモリを統合したリカレントビジョントランス(Recurrent Vision Transformer, Recurrent ViT)を提案する。
本モデルでは,クエーの精度向上やクエーの応答の高速化など,注意のサインのような霊長類を呈する。
これらの結果から、反復的なフィードバックを自己注意に取り入れることで、霊長類の視覚的注意を捉える重要な側面を捉えることができることが示唆された。
論文 参考訳(メタデータ) (2025-02-16T02:22:27Z) - Powerformer: A Transformer with Weighted Causal Attention for Time-series Forecasting [50.298817606660826]
我々は,非因果重みをスムーズな重み付き崩壊に応じて再加重する因果重みに置き換える新しいトランスフォーマーであるPowerformerを紹介する。
我々の実証実験の結果,Powerformer は公開時系列ベンチマークで最先端の精度を達成できた。
分析の結果、トレーニング中にモデルの局所性バイアスが増幅され、時系列データとパワールールに基づく注意の相互作用が示されることがわかった。
論文 参考訳(メタデータ) (2025-02-10T04:42:11Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - Spatially-Aware Transformer for Embodied Agents [20.498778205143477]
本稿では,空間情報を含む空間認識変換器モデルの利用について検討する。
メモリ利用効率が向上し,様々な場所中心の下流タスクにおいて精度が向上することが実証された。
また,強化学習に基づくメモリ管理手法であるAdaptive Memory Allocatorを提案する。
論文 参考訳(メタデータ) (2024-02-23T07:46:30Z) - ExpPoint-MAE: Better interpretability and performance for self-supervised point cloud transformers [7.725095281624494]
マスク付き自動符号化の有効性を事前学習方式として評価し,代替手段としてMomentum Contrastを探索する。
我々は,トランスフォーマーが意味論的に意味のある領域への参加を学ぶことを観察し,事前学習が基礎となる幾何学の理解を深めることを示す。
論文 参考訳(メタデータ) (2023-06-19T09:38:21Z) - Image Deblurring by Exploring In-depth Properties of Transformer [86.7039249037193]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
論文 参考訳(メタデータ) (2023-03-24T14:14:25Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Accounting for Agreement Phenomena in Sentence Comprehension with
Transformer Language Models: Effects of Similarity-based Interference on
Surprisal and Attention [4.103438743479001]
主語動詞と反射代名詞一致処理における類似性に基づく干渉効果の説明を進めます。
動詞または反射代名詞の超越性は、非文法文における促進的干渉効果を予測する。
論文 参考訳(メタデータ) (2021-04-26T20:46:54Z) - Interference and Generalization in Temporal Difference Learning [86.31598155056035]
時間差学習における一般化と干渉の関係について検討する。
教師付き学習ではTDが容易に低干渉,低一般化パラメータにつながり,その効果は逆のように見える。
論文 参考訳(メタデータ) (2020-03-13T15:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。