論文の概要: Self-Attention Limits Working Memory Capacity of Transformer-Based Models
- arxiv url: http://arxiv.org/abs/2409.10715v2
- Date: Sat, 16 Nov 2024 20:50:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:44.443847
- Title: Self-Attention Limits Working Memory Capacity of Transformer-Based Models
- Title(参考訳): 変圧器モデルにおける作業記憶能力の自己注意限界
- Authors: Dongyu Gong, Hantao Zhang,
- Abstract要約: Transformerベースの大規模言語モデル(LLMs)に関する最近の研究は、ワーキングメモリ容量の大幅な制限を明らかにしている。
具体的には、これらのモデルの性能は N が増加するにつれて N-back タスクに著しく低下する。
行動科学からエグゼクティブ・アテンション理論に触発された我々は、自己認識メカニズムが作業記憶能力の限界に寄与するかもしれないと仮説を立てた。
- 参考スコア(独自算出の注目度): 0.46040036610482665
- License:
- Abstract: Recent work on Transformer-based large language models (LLMs) has revealed striking limits in their working memory capacity, similar to what has been found in human behavioral studies. Specifically, these models' performance drops significantly on N-back tasks as N increases. However, there is still a lack of mechanistic interpretability as to why this phenomenon would arise. Inspired by the executive attention theory from behavioral sciences, we hypothesize that the self-attention mechanism within Transformer-based models might be responsible for their working memory capacity limits. To test this hypothesis, we train vanilla decoder-only transformers to perform N-back tasks and find that attention scores gradually aggregate to the N-back positions over training, suggesting that the model masters the task by learning a strategy to pay attention to the relationship between the current position and the N-back position. Critically, we find that the total entropy of the attention score matrix increases as N increases, suggesting that the dispersion of attention scores might be the cause of the capacity limit observed in N-back tasks. Our findings thus offer insights into the shared role of attention in both human and artificial intelligence. Moreover, the limitations of the self-attention mechanism revealed in the current study could inform future efforts to design more powerful model architectures with enhanced working memory capacity and cognitive capabilities.
- Abstract(参考訳): トランスフォーマーをベースとした大規模言語モデル(LLM)に関する最近の研究は、人間の行動研究で見られるような、作業記憶能力の著しい限界を明らかにしている。
具体的には、これらのモデルの性能は N が増加するにつれて N-back タスクに著しく低下する。
しかし、なぜこの現象が起こるのかというメカニスティックな解釈能力の欠如がまだ残っている。
行動科学からエグゼクティブアテンション理論に触発された我々は、トランスフォーマーベースのモデルにおける自己認識メカニズムが、そのワーキングメモリ容量の限界に寄与するかもしれないと仮説を立てた。
この仮説を検証するために,バニラ復号器のみの変圧器を訓練してN-backタスクを実行し,学習中のN-back位置に徐々に注目スコアが集約されることを確認し,モデルが現在の位置とN-back位置の関係に注意を払う戦略を学習することによってタスクをマスターすることを提案する。
臨界的には,Nが増加するにつれて注目スコア行列の総エントロピーが増加し,N-backタスクで観測されるキャパシティ限界の原因が注目スコアの分散である可能性が示唆された。
この結果から,人間と人工知能の双方における注目の共有的役割に関する知見が得られた。
さらに,本研究で明らかになった自己注意機構の限界は,作業記憶能力と認知能力が向上した,より強力なモデルアーキテクチャを設計するための今後の取り組みを示唆する可能性がある。
関連論文リスト
- Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - Exploring Channel Distinguishability in Local Neighborhoods of the Model Space in Quantum Neural Networks [0.5277756703318045]
量子ニューラルネットワーク(QNN)が登場し、注目されている。
QNNはトレーニングが難しいことで知られていますが、これは部分的にはAnsatzesと呼ばれるアーキテクチャによるものだと仮定しています。
論文 参考訳(メタデータ) (2024-10-12T10:20:26Z) - Modularity in Transformers: Investigating Neuron Separability & Specialization [0.0]
トランスフォーマーモデルは様々なアプリケーションでますます普及していますが、内部動作に対する我々の理解は限定的です。
本稿では、視覚(ViT)モデルと言語(Mistral 7B)モデルの両方に着目し、トランスフォーマーアーキテクチャ内のニューロンのモジュラリティとタスクの特殊化について検討する。
選択的プルーニングとMoEficationクラスタリングの組み合わせを用いて、異なるタスクやデータサブセットにわたるニューロンの重複と特殊化を分析する。
論文 参考訳(メタデータ) (2024-08-30T14:35:01Z) - A Primal-Dual Framework for Transformers and Neural Networks [52.814467832108875]
自己注意は、シーケンスモデリングタスクにおけるトランスフォーマーの顕著な成功の鍵である。
自己アテンションは、支持ベクトル回帰問題から導かれる支持ベクトル展開に対応することを示す。
Batch Normalized Attention (Attention-BN) と Scaled Head (Attention-SH) の2つの新しい注意点を提案する。
論文 参考訳(メタデータ) (2024-06-19T19:11:22Z) - Too Big to Fail: Larger Language Models are Disproportionately Resilient to Induction of Dementia-Related Linguistic Anomalies [7.21603206617401]
より大型のGPT-2モデルでは、マスキングによる劣化の程度を示すために、被マスキング/被マスキングを行うために、不均等に多くの注意ヘッドを必要とすることが示されている。
これらの結果から, トランスフォーマーモデルにおける注意機構は, 認知と脳保護の概念に類似している可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-05T00:31:50Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - Mesoscopic modeling of hidden spiking neurons [3.6868085124383616]
我々は粗粒度と平均場近似を用いて、ボトムアップ・ニューラルグラウンド付き潜在変数モデル(neuLVM)を導出する。
neuLVMは、繰り返し発生するマルチポピュレーションスパイクニューラルネットワーク(SNN)に明示的にマッピングできる
シンセティックスパイク列車では,数個の観察されたニューロンが,大きなSNNの効率的なモデル逆転を実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2022-05-26T17:04:39Z) - Reducing Catastrophic Forgetting in Self Organizing Maps with
Internally-Induced Generative Replay [67.50637511633212]
生涯学習エージェントは、パターン知覚データの無限のストリームから継続的に学習することができる。
適応するエージェントを構築する上での歴史的難しさの1つは、ニューラルネットワークが新しいサンプルから学ぶ際に、以前取得した知識を維持するのに苦労していることである。
この問題は破滅的な忘れ(干渉)と呼ばれ、今日の機械学習の領域では未解決の問題のままである。
論文 参考訳(メタデータ) (2021-12-09T07:11:14Z) - Learning Curves for Sequential Training of Neural Networks:
Self-Knowledge Transfer and Forgetting [9.734033555407406]
我々は,タスクからタスクまでの目標関数を継続的に学習するニューラルネットワークをニューラルネットワークとして検討する。
モデルが複数のタスクで同じターゲット関数を学習する連続学習の変種について検討する。
同じターゲットであっても、トレーニングされたモデルは、各タスクのサンプルサイズに応じて、何らかの転送と忘れを見せる。
論文 参考訳(メタデータ) (2021-12-03T00:25:01Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。