論文の概要: Multihead self-attention in cortico-thalamic circuits
- arxiv url: http://arxiv.org/abs/2504.06354v2
- Date: Sat, 31 May 2025 10:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.268579
- Title: Multihead self-attention in cortico-thalamic circuits
- Title(参考訳): 皮質-視床回路におけるマルチヘッド自己アテンション
- Authors: Arno Granier, Walter Senn,
- Abstract要約: 本稿では,マルチヘッド自己アテンションに類似した計算を実現するために,皮質視床回路の構造が適していることを示す。
マルチヘッド自己アテンションを実現するために,皮質視床回路を配線する方法を示す。
- 参考スコア(独自算出の注目度): 0.844067337858849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Both biological cortico-thalamic networks and artificial transformer networks use canonical computations to perform a wide range of cognitive tasks. In this work, we propose that the structure of cortico-thalamic circuits is well suited to realize a computation analogous to multihead self-attention, the main algorithmic innovation of transformers. We start with the concept of a cortical unit module or microcolumn, and propose that superficial and deep pyramidal cells carry distinct computational roles. Specifically, superficial pyramidal cells encode an attention mask applied onto deep pyramidal cells to compute attention-modulated values. We show how to wire such microcolumns into a circuit equivalent to a single head of self-attention. We then suggest the parallel between one head of attention and a cortical area. On this basis, we show how to wire cortico-thalamic circuits to perform multihead self-attention. Along these constructions, we refer back to existing experimental data, and find noticeable correspondence. Finally, as a first step towards a mechanistic theory of synaptic learning in this framework, we formally derive gradient-based updates for the parameters of a multihead linear self-attention block and propose steps towards their implementation by local synaptic plasticity.
- Abstract(参考訳): 生物学的な皮質-視床ネットワークと人工トランスフォーマーネットワークは、様々な認知タスクを実行するために標準計算を使用する。
本研究では,変換器のアルゴリズム的革新であるマルチヘッド自己アテンションに類似した計算を実現するのに,皮質視床回路の構造が適していることを示す。
まず、皮質単位モジュールやマイクロカラムの概念から始め、表面および深層錐体細胞が異なる計算的役割を担っていることを提案する。
特に、表面錐体細胞は、注目変調値を計算するために、深層錐体細胞に適用される注意マスクを符号化する。
我々は、そのようなマイクロカラムを1つの自己注意の頭に相当する回路に配線する方法を示す。
次に,1つの注意の頭と皮質領域の並行性を提案する。
そこで本研究では,皮質視床回路を配線してマルチヘッド自己注意を行う方法を示す。
これらの構成に沿って、既存の実験データを参照し、顕著な対応を見出す。
最後に, この枠組みにおけるシナプス学習の力学理論への第一歩として, 多頭部線形自己アテンションブロックのパラメータの勾配に基づく更新を公式に導出し, 局所シナプス可塑性による実装に向けてのステップを提案する。
関連論文リスト
- A Hybrid Transformer Architecture with a Quantized Self-Attention Mechanism Applied to Molecular Generation [0.0]
本稿では,トランスデコーダの一部として,量子古典的自己アテンション機構を提案する。
クェリキードット積の時間的複雑さは古典的モデルでは$mathcalO(n2 d)$から量子モデルでは$mathcalO(n2 d)$に減少する。
この研究は、量子化自然言語処理(NLP)のための有望な道を提供する。
論文 参考訳(メタデータ) (2025-02-26T15:15:01Z) - Position-aware Automatic Circuit Discovery [59.64762573617173]
我々は既存の回路探索手法のギャップを同定し、モデル成分を入力位置間で等しく関連するものとして扱う。
可変長例を含むタスクであっても,回路に位置性を組み込むための2つの改良を提案する。
提案手法により, 位置感応回路の完全自動検出が可能となり, 従来よりも回路サイズと忠実度とのトレードオフが良好になる。
論文 参考訳(メタデータ) (2025-02-07T00:18:20Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Tree Attention: Topology-aware Decoding for Long-Context Attention on GPU clusters [10.403248386029407]
我々の定式化により,木伐採により,配列軸を横断する還元を効率的に並列に計算できることが判明した。
複数のGPU間で正確な注意を並列化するための、Tree Attentionと呼ばれるアルゴリズムは、デバイス間デコーディングを可能にします。
我々は、Tree AttentionがLlama 3.1-8Bのデコード速度を最大4倍に向上し、様々なハードウェアやネットワークのセットアップに適用できることを実証した。
論文 参考訳(メタデータ) (2024-08-07T21:16:55Z) - Implementing engrams from a machine learning perspective: XOR as a basic motif [0.0]
我々は,XORスイッチを実装した基本モチーフに基づいて,最初のアイデアを提示する。
我々は、このXORモチーフを組み込んだ学習能力を備えた、基本的な生物学的神経構造の構築方法について検討する。
論文 参考訳(メタデータ) (2024-06-14T11:36:49Z) - Input-driven circuit reconfiguration in critical recurrent neural networks.Marcelo O. Magnasco [0.0]
入力のみを用いて経路を「オンフライ」に再構成できる,非常に単純な単一層再帰ネットワークを提案する。
このネットワークは、信号の伝搬を各領域に沿ってのみ評価することで、古典的な接続性問題を解決する。
論文 参考訳(メタデータ) (2024-05-23T20:15:23Z) - Exact block encoding of imaginary time evolution with universal quantum neural networks [0.0]
我々は、多体量子ビットハミルトニアンの正確な熱状態を表現できる量子ニューラルネットワークを生成する。
ネットワークは補助量子ビットの中間回路測定によって量子ハードウェア上で容易に実装できる。
論文 参考訳(メタデータ) (2024-03-25T23:35:04Z) - Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。
我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。
これらの機構の集約演算子に補正項を提示する。
論文 参考訳(メタデータ) (2023-06-02T15:19:08Z) - Mapping of attention mechanisms to a generalized Potts model [50.91742043564049]
ニューラルネットワークのトレーニングは、いわゆる擬似様相法によって逆ポッツ問題を解くのと全く同じであることを示す。
また、レプリカ法を用いてモデルシナリオにおける自己意図の一般化誤差を解析的に計算する。
論文 参考訳(メタデータ) (2023-04-14T16:32:56Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - DAE-Former: Dual Attention-guided Efficient Transformer for Medical
Image Segmentation [3.9548535445908928]
DAE-Formerは,自己認識機構を効率的に設計することで,新たな視点の提供を目指す新しい手法である。
本手法は, プレトレーニング重量を必要とせずに, 多臓器心病変と皮膚病変のセグメンテーションデータセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-12-27T14:39:39Z) - Characterization of anomalous diffusion through convolutional
transformers [0.8984888893275713]
本稿では, 異常拡散のキャラクタリゼーションのためのトランスフォーマーに基づくニューラルネットワークアーキテクチャを提案する。
新たなアーキテクチャであるConvTransformer(ConvTransformer)は、二層畳み込みニューラルネットワークを使用して、拡散軌道から特徴を抽出します。
我々は,ConvTransformerが,短い軌跡において,基礎となる拡散状態を決定する上で,従来の技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-10T18:53:13Z) - An Investigation into Neuromorphic ICs using Memristor-CMOS Hybrid
Circuits [0.0]
CMOS-Memristorベースのニューラルネットワークアクセラレータは、ニューラルネットワークを高速化する方法を提供する。
様々なメムリスタプログラミング回路と基本的なニューロモルフィック回路がシミュレーションされている。
プロジェクトの次のフェーズは、ニューラルネットワークの設計に使用できる基本的なビルディングブロックの設計に関するものです。
論文 参考訳(メタデータ) (2022-08-19T18:04:03Z) - Geometric Transformer for End-to-End Molecule Properties Prediction [92.28929858529679]
分子特性予測のためのトランスフォーマーに基づくアーキテクチャを導入し,分子の形状を捉える。
分子幾何学の初期符号化による古典的な位置エンコーダと、学習されたゲート自己保持機構を改変する。
論文 参考訳(メタデータ) (2021-10-26T14:14:40Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z) - Neural Response Interpretation through the Lens of Critical Pathways [52.41018985255681]
本稿では,重要な経路を同定する問題を議論し,入力に対するネットワークの応答の解釈に活用する。
プルーニング由来のスパース経路は、必ずしも重要な入力情報をエンコードするとは限らない。
入力情報の重要な断片を含むスパース経路を確保するため,ニューロンの応答への寄与による経路選択を提案する。
論文 参考訳(メタデータ) (2021-03-31T08:08:41Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。