論文の概要: Linking In-context Learning in Transformers to Human Episodic Memory
- arxiv url: http://arxiv.org/abs/2405.14992v2
- Date: Thu, 31 Oct 2024 04:15:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:59:04.116465
- Title: Linking In-context Learning in Transformers to Human Episodic Memory
- Title(参考訳): 変換器における文脈内学習と人間のエピソード記憶のリンク
- Authors: Li Ji-An, Corey Y. Zhou, Marcus K. Benna, Marcelo G. Mattar,
- Abstract要約: 我々は,トランスフォーマーに基づく大規模言語モデルにおいて,文脈内学習に寄与する帰納的頭部に焦点を当てた。
本研究では,インダクションヘッドの動作,機能,機械的特性が,ヒトのエピソード記憶の文脈的保守と検索モデルに類似していることを示す。
- 参考スコア(独自算出の注目度): 1.124958340749622
- License:
- Abstract: Understanding connections between artificial and biological intelligent systems can reveal fundamental principles of general intelligence. While many artificial intelligence models have a neuroscience counterpart, such connections are largely missing in Transformer models and the self-attention mechanism. Here, we examine the relationship between interacting attention heads and human episodic memory. We focus on induction heads, which contribute to in-context learning in Transformer-based large language models (LLMs). We demonstrate that induction heads are behaviorally, functionally, and mechanistically similar to the contextual maintenance and retrieval (CMR) model of human episodic memory. Our analyses of LLMs pre-trained on extensive text data show that CMR-like heads often emerge in the intermediate and late layers, qualitatively mirroring human memory biases. The ablation of CMR-like heads suggests their causal role in in-context learning. Our findings uncover a parallel between the computational mechanisms of LLMs and human memory, offering valuable insights into both research fields.
- Abstract(参考訳): 人工知能システムと生物学的知能システムの間の接続を理解することは、汎用知能の基本的な原理を明らかにすることができる。
多くの人工知能モデルには神経科学モデルがあるが、トランスフォーマーモデルと自己認識機構にはそのような接続がほとんど欠けている。
そこで本研究では,対話型アテンションヘッドとヒトのエピソード記憶の関係について検討する。
本稿では,Transformer-based large language model (LLMs) における文脈内学習に寄与する帰納的頭部に焦点を当てた。
我々は、誘導頭部が人間のエピソード記憶の文脈的メンテナンスと検索(CMR)モデルと、行動的、機能的、機械的に類似していることを示した。
広範囲なテキストデータから事前学習したLCMの分析では、CMRのような頭部が中間層と後期層にしばしば出現し、人間の記憶バイアスを質的に反映していることが示されている。
CMRのような頭部のアブレーションは、文脈内学習におけるその因果的役割を示唆している。
この結果から,LLMの計算機構と人間の記憶の並列性が明らかとなり,両研究分野に有用な知見が得られた。
関連論文リスト
- Brain-like Functional Organization within Large Language Models [58.93629121400745]
人間の脳は長い間人工知能(AI)の追求にインスピレーションを与えてきた
最近のニューロイメージング研究は、人工ニューラルネットワーク(ANN)の計算的表現と、人間の脳の刺激に対する神経反応との整合性の説得力のある証拠を提供する。
本研究では、人工ニューロンのサブグループと機能的脳ネットワーク(FBN)を直接結合することで、このギャップを埋める。
このフレームワークはANサブグループをFBNにリンクし、大きな言語モデル(LLM)内で脳に似た機能的組織を記述できる。
論文 参考訳(メタデータ) (2024-10-25T13:15:17Z) - Contextual Feature Extraction Hierarchies Converge in Large Language
Models and the Brain [12.92793034617015]
大規模言語モデル(LLM)がベンチマークタスクで高いパフォーマンスを達成するにつれ、より脳に近いものになることを示す。
また、モデルの性能と脳の類似性を改善する上で、文脈情報の重要性を示す。
論文 参考訳(メタデータ) (2024-01-31T08:48:35Z) - A Language Model with Limited Memory Capacity Captures Interference in
Human Sentence Processing [25.916625483405802]
我々は1つの自己注意頭を持つ反復型ニューラル言語モデルを開発する。
我々は,人間の実験で観察された意味的・統語的干渉効果を,モデルの単一注意頭部が捉えていることを示す。
論文 参考訳(メタデータ) (2023-10-24T19:33:27Z) - Unveiling Theory of Mind in Large Language Models: A Parallel to Single
Neurons in the Human Brain [2.5350521110810056]
大きな言語モデル(LLM)は、あるレベルの心の理論(ToM)を示すことが発見されている。
LLMのToMの能力や人間との類似性に基づく正確なプロセスはほとんど不明である。
論文 参考訳(メタデータ) (2023-09-04T15:26:15Z) - Language Knowledge-Assisted Representation Learning for Skeleton-Based
Action Recognition [71.35205097460124]
人間が他人の行動を理解して認識する方法は、複雑な神経科学の問題である。
LA-GCNは、大規模言語モデル(LLM)知識アシストを用いたグラフ畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-21T08:29:16Z) - Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。
本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。
これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文 参考訳(メタデータ) (2023-03-24T13:24:41Z) - Learning Theory of Mind via Dynamic Traits Attribution [59.9781556714202]
本稿では,過去のトラジェクトリからアクターの潜在特性ベクトルを生成するニューラルToMアーキテクチャを提案する。
この特性ベクトルは、予測ニューラルネットワークの高速重み付けスキームを介して予測機構を乗法的に変調する。
実験により,高速重量はエージェントの特性をモデル化し,マインドリーディング能力を向上させるために優れた誘導バイアスを与えることが示された。
論文 参考訳(メタデータ) (2022-04-17T11:21:18Z) - CogNGen: Constructing the Kernel of a Hyperdimensional Predictive
Processing Cognitive Architecture [79.07468367923619]
神経生物学的に妥当な2つの計算モデルを組み合わせた新しい認知アーキテクチャを提案する。
我々は、現代の機械学習技術の力を持つ認知アーキテクチャを開発することを目指している。
論文 参考訳(メタデータ) (2022-03-31T04:44:28Z) - From internal models toward metacognitive AI [0.0]
前頭前皮質では、「認知現実監視ネットワーク」と呼ばれる分散型エグゼクティブネットワークが、生成的逆モデルペアの意識的な関与を編成する。
高い責任信号は、外界を最も捉えているペアに与えられる。
意識はすべての対における責任信号のエントロピーによって決定される。
論文 参考訳(メタデータ) (2021-09-27T05:00:56Z) - Towards a Neural Model for Serial Order in Frontal Cortex: a Brain
Theory from Memory Development to Higher-Level Cognition [53.816853325427424]
そこで本研究では,未熟な前頭前野 (PFC) が側頭葉信号の階層的パターンを検出する主要な機能を利用していることを提案する。
我々の仮説では、PFCは順序パターンの形で時間的配列の階層構造を検出し、それらを脳の異なる部分で階層的に情報をインデックスするために利用する。
これにより、抽象的な知識を操作し、時間的に順序付けられた情報を計画するための言語対応の脳にツールを提供する。
論文 参考訳(メタデータ) (2020-05-22T14:29:51Z) - Brain-inspired self-organization with cellular neuromorphic computing
for multimodal unsupervised learning [0.0]
本稿では,自己組織マップとヘビアン様学習を用いた再突入理論に基づく脳刺激型ニューラルシステムを提案する。
システムトポロジがユーザによって固定されるのではなく,自己組織化によって学習されるような,いわゆるハードウェアの可塑性の獲得について述べる。
論文 参考訳(メタデータ) (2020-04-11T21:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。