論文の概要: Multihead self-attention in cortico-thalamic circuits
- arxiv url: http://arxiv.org/abs/2504.06354v1
- Date: Tue, 08 Apr 2025 18:04:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:53.109569
- Title: Multihead self-attention in cortico-thalamic circuits
- Title(参考訳): 皮質-視床回路におけるマルチヘッド自己アテンション
- Authors: Arno Granier, Walter Senn,
- Abstract要約: マルチヘッド自己アテンションを実現するために,皮質視床回路を配線する方法を示す。
多頭部線形自己注意ブロックに対するトークン平均二乗誤差損失の形式的勾配を導出する。
- 参考スコア(独自算出の注目度): 0.844067337858849
- License:
- Abstract: Both biological cortico-thalamic networks and artificial transformer networks use canonical computations to perform a wide range of cognitive tasks. In this work, we propose that the structure of cortico-thalamic circuits is well suited to realize a computation analogous to multihead self-attention, the main algorithmic innovation of transformers. We start with the concept of a cortical unit module or microcolumn, and propose that superficial and deep pyramidal cells carry distinct computational roles. Specifically, superficial pyramidal cells encode an attention mask applied onto deep pyramidal cells to compute attention-modulated values. We show how to wire such microcolumns into a circuit equivalent to a single head of self-attention. We then suggest the parallel between one head of attention and a cortical area. On this basis, we show how to wire cortico-thalamic circuits to perform multihead self-attention. Along these constructions, we refer back to existing experimental data, and find noticeable correspondence. Finally, as a first step towards a mechanistic theory of synaptic learning in this framework, we derive formal gradients of a tokenwise mean squared error loss for a multihead linear self-attention block.
- Abstract(参考訳): 生物学的な皮質-視床ネットワークと人工トランスフォーマーネットワークは、様々な認知タスクを実行するために標準計算を使用する。
本研究では,変換器のアルゴリズム的革新であるマルチヘッド自己アテンションに類似した計算を実現するのに,皮質視床回路の構造が適していることを示す。
まず、皮質単位モジュールやマイクロカラムの概念から始め、表面および深層錐体細胞が異なる計算的役割を担っていることを提案する。
特に、表面錐体細胞は、注目変調値を計算するために、深層錐体細胞に適用される注意マスクを符号化する。
我々は、そのようなマイクロカラムを1つの自己注意の頭に相当する回路に配線する方法を示す。
次に,1つの注意の頭と皮質領域の並行性を提案する。
そこで本研究では,マルチヘッド自己注意を実現するために,皮質視床回路を配線する方法を示す。
これらの構成に沿って、既存の実験データを参照し、顕著な対応を見出す。
最後に、この枠組みにおけるシナプス学習の力学理論への第一歩として、多頭部線形自己注意ブロックに対するトークン平均二乗誤差損失の形式的勾配を導出する。
関連論文リスト
- Position-aware Automatic Circuit Discovery [59.64762573617173]
我々は既存の回路探索手法のギャップを同定し、モデル成分を入力位置間で等しく関連するものとして扱う。
可変長例を含むタスクであっても,回路に位置性を組み込むための2つの改良を提案する。
提案手法により, 位置感応回路の完全自動検出が可能となり, 従来よりも回路サイズと忠実度とのトレードオフが良好になる。
論文 参考訳(メタデータ) (2025-02-07T00:18:20Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Implementing engrams from a machine learning perspective: XOR as a basic motif [0.0]
我々は,XORスイッチを実装した基本モチーフに基づいて,最初のアイデアを提示する。
我々は、このXORモチーフを組み込んだ学習能力を備えた、基本的な生物学的神経構造の構築方法について検討する。
論文 参考訳(メタデータ) (2024-06-14T11:36:49Z) - Exact block encoding of imaginary time evolution with universal quantum neural networks [0.0]
我々は、多体量子ビットハミルトニアンの正確な熱状態を表現できる量子ニューラルネットワークを生成する。
ネットワークは補助量子ビットの中間回路測定によって量子ハードウェア上で容易に実装できる。
論文 参考訳(メタデータ) (2024-03-25T23:35:04Z) - Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。
我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。
これらの機構の集約演算子に補正項を提示する。
論文 参考訳(メタデータ) (2023-06-02T15:19:08Z) - Mapping of attention mechanisms to a generalized Potts model [50.91742043564049]
ニューラルネットワークのトレーニングは、いわゆる擬似様相法によって逆ポッツ問題を解くのと全く同じであることを示す。
また、レプリカ法を用いてモデルシナリオにおける自己意図の一般化誤差を解析的に計算する。
論文 参考訳(メタデータ) (2023-04-14T16:32:56Z) - Characterization of anomalous diffusion through convolutional
transformers [0.8984888893275713]
本稿では, 異常拡散のキャラクタリゼーションのためのトランスフォーマーに基づくニューラルネットワークアーキテクチャを提案する。
新たなアーキテクチャであるConvTransformer(ConvTransformer)は、二層畳み込みニューラルネットワークを使用して、拡散軌道から特徴を抽出します。
我々は,ConvTransformerが,短い軌跡において,基礎となる拡散状態を決定する上で,従来の技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-10T18:53:13Z) - An Investigation into Neuromorphic ICs using Memristor-CMOS Hybrid
Circuits [0.0]
CMOS-Memristorベースのニューラルネットワークアクセラレータは、ニューラルネットワークを高速化する方法を提供する。
様々なメムリスタプログラミング回路と基本的なニューロモルフィック回路がシミュレーションされている。
プロジェクトの次のフェーズは、ニューラルネットワークの設計に使用できる基本的なビルディングブロックの設計に関するものです。
論文 参考訳(メタデータ) (2022-08-19T18:04:03Z) - Geometric Transformer for End-to-End Molecule Properties Prediction [92.28929858529679]
分子特性予測のためのトランスフォーマーに基づくアーキテクチャを導入し,分子の形状を捉える。
分子幾何学の初期符号化による古典的な位置エンコーダと、学習されたゲート自己保持機構を改変する。
論文 参考訳(メタデータ) (2021-10-26T14:14:40Z) - Neural Response Interpretation through the Lens of Critical Pathways [52.41018985255681]
本稿では,重要な経路を同定する問題を議論し,入力に対するネットワークの応答の解釈に活用する。
プルーニング由来のスパース経路は、必ずしも重要な入力情報をエンコードするとは限らない。
入力情報の重要な断片を含むスパース経路を確保するため,ニューロンの応答への寄与による経路選択を提案する。
論文 参考訳(メタデータ) (2021-03-31T08:08:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。