論文の概要: Multihead self-attention in cortico-thalamic circuits
- arxiv url: http://arxiv.org/abs/2504.06354v3
- Date: Sun, 10 Aug 2025 20:48:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.247467
- Title: Multihead self-attention in cortico-thalamic circuits
- Title(参考訳): 皮質-視床回路におけるマルチヘッド自己アテンション
- Authors: Arno Granier, Walter Senn,
- Abstract要約: 本稿では,マルチヘッド自己アテンションに類似した計算を実現するために,皮質視床回路の構造が適していることを示す。
この計算の構造は、視床から大脳皮質へのコアおよびマトリックス突起の微細な構造と一致している。
- 参考スコア(独自算出の注目度): 0.844067337858849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Both biological cortico-thalamic networks and artificial transformer networks use canonical computations to perform a wide range of cognitive tasks. In this work, we propose that the structure of cortico-thalamic circuits is well suited to realize a computation analogous to multihead self-attention, the main algorithmic innovation of transformer networks. We assign distinct computational roles to superficial and deep pyramidal cells of the cortex: while superficial pyramidal cells maintain a key-value memory, deep pyramidal cells encode the current query, gain-modulated by the key-value memory in the superficial layer. We show that the structure of this computation matches the fine-grained structure of core and matrix projections from the thalamus to the cortex. We then suggest the parallel between one head of attention and a cortical area, and propose that a thalamo-cortico-thalamic pathway implements a computation akin to a multihead, unnormalized, linear self-attention block. Cross-attention corresponds to the key-value memory of one cortical area being used for retrieval by the query in another cortical area. Finally, as a first step towards a mechanistic theory of synaptic learning of cortical transformers, we derive the formal gradients of a typical loss function with respect to the parameters of such computation.
- Abstract(参考訳): 生物学的な皮質-視床ネットワークと人工トランスフォーマーネットワークは、様々な認知タスクを実行するために標準計算を使用する。
本研究では,変換器ネットワークの主なアルゴリズム革新であるマルチヘッド自己アテンションに類似した計算を実現するのに,皮質視床回路の構造が適していることを示す。
表層錐体細胞はキー値メモリを維持し,表層錐体細胞はキー値メモリをコードし,表層におけるキー値メモリによってゲイン変調される。
この計算の構造は、視床から大脳皮質へのコアおよびマトリックス突起の微細な構造と一致している。
そこで我々は,1つの注意の頭部と皮質領域の並列性を提案するとともに,視床・皮質・視床の経路が,多頭部・非正規化・線形自己注意ブロックに類似した計算を実行することを提案する。
クロスアテンションは、1つの皮質領域のキー値メモリに対応し、別の皮質領域のクエリによって検索に使用される。
最後に、皮質変圧器のシナプス学習の力学理論への第一歩として、そのような計算のパラメータに関して典型的な損失関数の形式的勾配を導出する。
関連論文リスト
- A Hybrid Transformer Architecture with a Quantized Self-Attention Mechanism Applied to Molecular Generation [0.0]
本稿では,トランスデコーダの一部として,量子古典的自己アテンション機構を提案する。
クェリキードット積の時間的複雑さは古典的モデルでは$mathcalO(n2 d)$から量子モデルでは$mathcalO(n2 d)$に減少する。
この研究は、量子化自然言語処理(NLP)のための有望な道を提供する。
論文 参考訳(メタデータ) (2025-02-26T15:15:01Z) - Position-aware Automatic Circuit Discovery [59.64762573617173]
我々は既存の回路探索手法のギャップを同定し、モデル成分を入力位置間で等しく関連するものとして扱う。
可変長例を含むタスクであっても,回路に位置性を組み込むための2つの改良を提案する。
提案手法により, 位置感応回路の完全自動検出が可能となり, 従来よりも回路サイズと忠実度とのトレードオフが良好になる。
論文 参考訳(メタデータ) (2025-02-07T00:18:20Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Tree Attention: Topology-aware Decoding for Long-Context Attention on GPU clusters [10.403248386029407]
我々の定式化により,木伐採により,配列軸を横断する還元を効率的に並列に計算できることが判明した。
複数のGPU間で正確な注意を並列化するための、Tree Attentionと呼ばれるアルゴリズムは、デバイス間デコーディングを可能にします。
我々は、Tree AttentionがLlama 3.1-8Bのデコード速度を最大4倍に向上し、様々なハードウェアやネットワークのセットアップに適用できることを実証した。
論文 参考訳(メタデータ) (2024-08-07T21:16:55Z) - Implementing engrams from a machine learning perspective: XOR as a basic motif [0.0]
我々は,XORスイッチを実装した基本モチーフに基づいて,最初のアイデアを提示する。
我々は、このXORモチーフを組み込んだ学習能力を備えた、基本的な生物学的神経構造の構築方法について検討する。
論文 参考訳(メタデータ) (2024-06-14T11:36:49Z) - Input-driven circuit reconfiguration in critical recurrent neural networks.Marcelo O. Magnasco [0.0]
入力のみを用いて経路を「オンフライ」に再構成できる,非常に単純な単一層再帰ネットワークを提案する。
このネットワークは、信号の伝搬を各領域に沿ってのみ評価することで、古典的な接続性問題を解決する。
論文 参考訳(メタデータ) (2024-05-23T20:15:23Z) - Exact block encoding of imaginary time evolution with universal quantum neural networks [0.0]
我々は、多体量子ビットハミルトニアンの正確な熱状態を表現できる量子ニューラルネットワークを生成する。
ネットワークは補助量子ビットの中間回路測定によって量子ハードウェア上で容易に実装できる。
論文 参考訳(メタデータ) (2024-03-25T23:35:04Z) - Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。
我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。
これらの機構の集約演算子に補正項を提示する。
論文 参考訳(メタデータ) (2023-06-02T15:19:08Z) - Mapping of attention mechanisms to a generalized Potts model [50.91742043564049]
ニューラルネットワークのトレーニングは、いわゆる擬似様相法によって逆ポッツ問題を解くのと全く同じであることを示す。
また、レプリカ法を用いてモデルシナリオにおける自己意図の一般化誤差を解析的に計算する。
論文 参考訳(メタデータ) (2023-04-14T16:32:56Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - DAE-Former: Dual Attention-guided Efficient Transformer for Medical
Image Segmentation [3.9548535445908928]
DAE-Formerは,自己認識機構を効率的に設計することで,新たな視点の提供を目指す新しい手法である。
本手法は, プレトレーニング重量を必要とせずに, 多臓器心病変と皮膚病変のセグメンテーションデータセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-12-27T14:39:39Z) - Characterization of anomalous diffusion through convolutional
transformers [0.8984888893275713]
本稿では, 異常拡散のキャラクタリゼーションのためのトランスフォーマーに基づくニューラルネットワークアーキテクチャを提案する。
新たなアーキテクチャであるConvTransformer(ConvTransformer)は、二層畳み込みニューラルネットワークを使用して、拡散軌道から特徴を抽出します。
我々は,ConvTransformerが,短い軌跡において,基礎となる拡散状態を決定する上で,従来の技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-10T18:53:13Z) - An Investigation into Neuromorphic ICs using Memristor-CMOS Hybrid
Circuits [0.0]
CMOS-Memristorベースのニューラルネットワークアクセラレータは、ニューラルネットワークを高速化する方法を提供する。
様々なメムリスタプログラミング回路と基本的なニューロモルフィック回路がシミュレーションされている。
プロジェクトの次のフェーズは、ニューラルネットワークの設計に使用できる基本的なビルディングブロックの設計に関するものです。
論文 参考訳(メタデータ) (2022-08-19T18:04:03Z) - Geometric Transformer for End-to-End Molecule Properties Prediction [92.28929858529679]
分子特性予測のためのトランスフォーマーに基づくアーキテクチャを導入し,分子の形状を捉える。
分子幾何学の初期符号化による古典的な位置エンコーダと、学習されたゲート自己保持機構を改変する。
論文 参考訳(メタデータ) (2021-10-26T14:14:40Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z) - Neural Response Interpretation through the Lens of Critical Pathways [52.41018985255681]
本稿では,重要な経路を同定する問題を議論し,入力に対するネットワークの応答の解釈に活用する。
プルーニング由来のスパース経路は、必ずしも重要な入力情報をエンコードするとは限らない。
入力情報の重要な断片を含むスパース経路を確保するため,ニューロンの応答への寄与による経路選択を提案する。
論文 参考訳(メタデータ) (2021-03-31T08:08:41Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。