論文の概要: Understanding Transformers through the Lens of Pavlovian Conditioning
- arxiv url: http://arxiv.org/abs/2508.08289v1
- Date: Tue, 05 Aug 2025 05:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.141901
- Title: Understanding Transformers through the Lens of Pavlovian Conditioning
- Title(参考訳): パブロフ調光レンズによる変圧器の理解
- Authors: Mu Qiao,
- Abstract要約: 本稿では,注意のコア計算をパブロヴィアン条件付けとして再解釈する理論的枠組みを提案する。
注意点のクエリ,キー,値が,古典的条件付けの3つの要素にマッピング可能であることを示す。
我々の枠組みは、この線形化モデルに基づくいくつかの理論的洞察をもたらす。
- 参考スコア(独自算出の注目度): 0.5076419064097734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer architectures have revolutionized artificial intelligence (AI) through their attention mechanisms, yet the computational principles underlying their success remain opaque. We present a novel theoretical framework that reinterprets the core computation of attention as Pavlovian conditioning. Our model finds a direct mathematical analogue in linear attention, which simplifies the analysis of the underlying associative process. We demonstrate that attention's queries, keys, and values can be mapped to the three elements of classical conditioning: test stimuli that probe associations, conditional stimuli (CS) that serve as retrieval cues, and unconditional stimuli (US) that contain response information. Through this lens, we suggest that each attention operation constructs a transient associative memory via a Hebbian rule, where CS-US pairs form dynamic associations that test stimuli can later retrieve. Our framework yields several theoretical insights grounded in this linearized model: (1) a capacity theorem showing that attention heads can store O($\sqrt{d_k}$) associations before interference degrades retrieval; (2) an error propagation analysis revealing fundamental architectural trade-offs of balancing model depth, width, and head redundancy to maintain reliability; and (3) an understanding of how biologically plausible learning rules could enhance transformer architectures. By establishing this deep connection, we suggest that the success of modern AI may stem not from architectural novelty alone, but from implementing computational principles that biology optimized over millions of years of evolution.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、その注意機構を通じて人工知能(AI)に革命をもたらしたが、その成功の基礎となる計算原理は不透明のままである。
本稿では,注意のコア計算をパブロヴィアン条件付けとして再解釈する理論的枠組みを提案する。
本モデルでは, 線形注意における直接数学的類似点を見つけ, 基礎となる連想過程の解析を単純化する。
本研究では、従来の条件づけの3つの要素に注目のクエリ、キー、値をマッピングできることを実証する。
このレンズを通して、各注意操作は、CS-USペアが後に回復できる動的結合を形成するヘビアン則を介して、過渡的な連想記憶を構成することを示唆する。
本枠組みは,(1)注意頭がO($\sqrt{d_k}$)アソシエーションを格納できることを示すキャパシティ定理,(2)モデル深度,幅,頭部冗長性のバランスをとるための基本的なアーキテクチャトレードオフを明らかにするエラー伝搬解析,(3)生物学的に実証可能な学習規則がトランスフォーマーアーキテクチャをどのように強化するかの理解,などの理論的知見を導出する。
この深いつながりを確立することで、現代のAIの成功はアーキテクチャの新規性だけでなく、生物学が何百万年もの進化に最適化した計算原理の実装に起因しているのではないかと示唆する。
関連論文リスト
- Thinking Beyond Tokens: From Brain-Inspired Intelligence to Cognitive Foundations for Artificial General Intelligence and its Societal Impact [27.722167796617114]
本稿では,人工知能,認知神経科学,心理学,生成モデル,エージェントベースシステムの学際的合成について述べる。
我々は汎用知能のアーキテクチャと認知の基礎を分析し、モジュラー推論、永続記憶、マルチエージェント協調の役割を強調した。
我々は、人工知能への道の鍵となる科学的、技術的、倫理的課題を特定します。
論文 参考訳(メタデータ) (2025-07-01T16:52:25Z) - Test-time regression: a unifying framework for designing sequence models with associative memory [24.915262407519876]
シーケンスモデルを理解し、導出するための統一フレームワークを導入する。
我々は、連想的リコールを2段階のプロセス、記憶と検索として形式化し、回帰問題としてキャストする。
我々の研究は、古典的回帰手法によるシーケンスモデリングを橋渡しし、より強力で理論的に原則化されたアーキテクチャを開発するための道を開く。
論文 参考訳(メタデータ) (2025-01-21T18:32:31Z) - The Buffer Mechanism for Multi-Step Information Reasoning in Language Models [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。
本研究では,トランスフォーマーモデルが垂直思考戦略を採用するメカニズムを解明するために,シンボリックデータセットを構築した。
我々は,GPT-2モデルに必要なトレーニング時間を75%削減し,モデルの推論能力を高めるために,ランダムな行列ベースアルゴリズムを提案した。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - Closing the Loop: How Semantic Closure Enables Open-Ended Evolution [0.5755004576310334]
この写本は意味的クロージャの進化的出現を探求している。
関係生物学、物理生物疫学、生態心理学の概念を統一的な計算行動論の枠組みに統合する。
論文 参考訳(メタデータ) (2024-04-05T19:35:38Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z) - Deep learning applied to computational mechanics: A comprehensive
review, state of the art, and the classics [77.34726150561087]
人工知能,特に深層学習(DL)の最近の進歩を概観する。
ハイブリッドおよび純粋機械学習(ML)の手法について論じる。
AIの歴史と限界は、特に古典の誤解や誤解を指摘し、議論され、議論される。
論文 参考訳(メタデータ) (2022-12-18T02:03:00Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。