論文の概要: Multihead self-attention in cortico-thalamic circuits
- arxiv url: http://arxiv.org/abs/2504.06354v3
- Date: Sun, 10 Aug 2025 20:48:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.247467
- Title: Multihead self-attention in cortico-thalamic circuits
- Title(参考訳): 皮質-視床回路におけるマルチヘッド自己アテンション
- Authors: Arno Granier, Walter Senn,
- Abstract要約: 本稿では,マルチヘッド自己アテンションに類似した計算を実現するために,皮質視床回路の構造が適していることを示す。
この計算の構造は、視床から大脳皮質へのコアおよびマトリックス突起の微細な構造と一致している。
- 参考スコア(独自算出の注目度): 0.844067337858849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Both biological cortico-thalamic networks and artificial transformer networks use canonical computations to perform a wide range of cognitive tasks. In this work, we propose that the structure of cortico-thalamic circuits is well suited to realize a computation analogous to multihead self-attention, the main algorithmic innovation of transformer networks. We assign distinct computational roles to superficial and deep pyramidal cells of the cortex: while superficial pyramidal cells maintain a key-value memory, deep pyramidal cells encode the current query, gain-modulated by the key-value memory in the superficial layer. We show that the structure of this computation matches the fine-grained structure of core and matrix projections from the thalamus to the cortex. We then suggest the parallel between one head of attention and a cortical area, and propose that a thalamo-cortico-thalamic pathway implements a computation akin to a multihead, unnormalized, linear self-attention block. Cross-attention corresponds to the key-value memory of one cortical area being used for retrieval by the query in another cortical area. Finally, as a first step towards a mechanistic theory of synaptic learning of cortical transformers, we derive the formal gradients of a typical loss function with respect to the parameters of such computation.
- Abstract(参考訳): 生物学的な皮質-視床ネットワークと人工トランスフォーマーネットワークは、様々な認知タスクを実行するために標準計算を使用する。
本研究では,変換器ネットワークの主なアルゴリズム革新であるマルチヘッド自己アテンションに類似した計算を実現するのに,皮質視床回路の構造が適していることを示す。
表層錐体細胞はキー値メモリを維持し,表層錐体細胞はキー値メモリをコードし,表層におけるキー値メモリによってゲイン変調される。
この計算の構造は、視床から大脳皮質へのコアおよびマトリックス突起の微細な構造と一致している。
そこで我々は,1つの注意の頭部と皮質領域の並列性を提案するとともに,視床・皮質・視床の経路が,多頭部・非正規化・線形自己注意ブロックに類似した計算を実行することを提案する。
クロスアテンションは、1つの皮質領域のキー値メモリに対応し、別の皮質領域のクエリによって検索に使用される。
最後に、皮質変圧器のシナプス学習の力学理論への第一歩として、そのような計算のパラメータに関して典型的な損失関数の形式的勾配を導出する。
関連論文リスト
- Building functional and mechanistic models of cortical computation based on canonical cell type connectivity [1.2492669241902092]
本稿では,皮質構造に関する現在の知識を考察し,計算モデルにおける2つの基本原理を抽出する。
第1の原則は、皮質細胞型が異なる計算的役割を果たすことである。
第2の原則は、皮質の接続性は、細胞タイプ間の接続性の標準的な青写真のみによって効率的に特徴づけられることである。
論文 参考訳(メタデータ) (2025-04-03T21:08:12Z) - A Hybrid Transformer Architecture with a Quantized Self-Attention Mechanism Applied to Molecular Generation [0.0]
本稿では,トランスデコーダの一部として,量子古典的自己アテンション機構を提案する。
クェリキードット積の時間的複雑さは古典的モデルでは$mathcalO(n2 d)$から量子モデルでは$mathcalO(n2 d)$に減少する。
この研究は、量子化自然言語処理(NLP)のための有望な道を提供する。
論文 参考訳(メタデータ) (2025-02-26T15:15:01Z) - Position-aware Automatic Circuit Discovery [59.64762573617173]
我々は既存の回路探索手法のギャップを同定し、モデル成分を入力位置間で等しく関連するものとして扱う。
可変長例を含むタスクであっても,回路に位置性を組み込むための2つの改良を提案する。
提案手法により, 位置感応回路の完全自動検出が可能となり, 従来よりも回路サイズと忠実度とのトレードオフが良好になる。
論文 参考訳(メタデータ) (2025-02-07T00:18:20Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Tree Attention: Topology-aware Decoding for Long-Context Attention on GPU clusters [10.403248386029407]
我々の定式化により,木伐採により,配列軸を横断する還元を効率的に並列に計算できることが判明した。
複数のGPU間で正確な注意を並列化するための、Tree Attentionと呼ばれるアルゴリズムは、デバイス間デコーディングを可能にします。
我々は、Tree AttentionがLlama 3.1-8Bのデコード速度を最大4倍に向上し、様々なハードウェアやネットワークのセットアップに適用できることを実証した。
論文 参考訳(メタデータ) (2024-08-07T21:16:55Z) - Implementing engrams from a machine learning perspective: XOR as a basic motif [0.0]
我々は,XORスイッチを実装した基本モチーフに基づいて,最初のアイデアを提示する。
我々は、このXORモチーフを組み込んだ学習能力を備えた、基本的な生物学的神経構造の構築方法について検討する。
論文 参考訳(メタデータ) (2024-06-14T11:36:49Z) - Input-driven circuit reconfiguration in critical recurrent neural networks.Marcelo O. Magnasco [0.0]
入力のみを用いて経路を「オンフライ」に再構成できる,非常に単純な単一層再帰ネットワークを提案する。
このネットワークは、信号の伝搬を各領域に沿ってのみ評価することで、古典的な接続性問題を解決する。
論文 参考訳(メタデータ) (2024-05-23T20:15:23Z) - Exact block encoding of imaginary time evolution with universal quantum neural networks [0.0]
我々は、多体量子ビットハミルトニアンの正確な熱状態を表現できる量子ニューラルネットワークを生成する。
ネットワークは補助量子ビットの中間回路測定によって量子ハードウェア上で容易に実装できる。
論文 参考訳(メタデータ) (2024-03-25T23:35:04Z) - A versatile circuit for emulating active biological dendrites applied to
sound localisation and neuron imitation [0.0]
我々は,利得を示し,遅延を導入し,統合を行うデンドライトのセグメントをエミュレートする汎用回路を導入する。
また、デンドライトが破裂するニューロンを形成できることもわかりました。
この重要な発見は、デンドライト回路のみからなるニューラルネットワークを作る可能性を示唆している。
論文 参考訳(メタデータ) (2023-10-25T09:42:24Z) - Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。
我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。
これらの機構の集約演算子に補正項を提示する。
論文 参考訳(メタデータ) (2023-06-02T15:19:08Z) - Mapping of attention mechanisms to a generalized Potts model [50.91742043564049]
ニューラルネットワークのトレーニングは、いわゆる擬似様相法によって逆ポッツ問題を解くのと全く同じであることを示す。
また、レプリカ法を用いてモデルシナリオにおける自己意図の一般化誤差を解析的に計算する。
論文 参考訳(メタデータ) (2023-04-14T16:32:56Z) - Improved Segmentation of Deep Sulci in Cortical Gray Matter Using a Deep
Learning Framework Incorporating Laplace's Equation [10.416464319867881]
本研究では, 学習過程において, 大脳皮質の形状に関する事前知識をネットワークに組み込む, 深層学習に基づく新しい皮質分割法を提案する。
提案手法は,定量的かつ定性的に,ベースラインセグメンテーションネットワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-01T19:48:45Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - DAE-Former: Dual Attention-guided Efficient Transformer for Medical
Image Segmentation [3.9548535445908928]
DAE-Formerは,自己認識機構を効率的に設計することで,新たな視点の提供を目指す新しい手法である。
本手法は, プレトレーニング重量を必要とせずに, 多臓器心病変と皮膚病変のセグメンテーションデータセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-12-27T14:39:39Z) - The Quantum Path Kernel: a Generalized Quantum Neural Tangent Kernel for
Deep Quantum Machine Learning [52.77024349608834]
古典的なディープニューラルネットワークの量子アナログを構築することは、量子コンピューティングにおける根本的な課題である。
鍵となる問題は、古典的なディープラーニングの本質的な非線形性にどのように対処するかである。
我々は、深層機械学習のこれらの側面を複製できる量子機械学習の定式化であるQuantum Path Kernelを紹介する。
論文 参考訳(メタデータ) (2022-12-22T16:06:24Z) - Characterization of anomalous diffusion through convolutional
transformers [0.8984888893275713]
本稿では, 異常拡散のキャラクタリゼーションのためのトランスフォーマーに基づくニューラルネットワークアーキテクチャを提案する。
新たなアーキテクチャであるConvTransformer(ConvTransformer)は、二層畳み込みニューラルネットワークを使用して、拡散軌道から特徴を抽出します。
我々は,ConvTransformerが,短い軌跡において,基礎となる拡散状態を決定する上で,従来の技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-10T18:53:13Z) - Exploring the role of parameters in variational quantum algorithms [59.20947681019466]
動的リー代数の階数を用いた変分量子回路のキャラクタリゼーションのための量子制御に着想を得た手法を提案する。
有望な接続は、リーランク、計算されたエネルギーの精度、および所定の回路アーキテクチャを介して目標状態を達成するために必要な深さとの間のものである。
論文 参考訳(メタデータ) (2022-09-28T20:24:53Z) - An Investigation into Neuromorphic ICs using Memristor-CMOS Hybrid
Circuits [0.0]
CMOS-Memristorベースのニューラルネットワークアクセラレータは、ニューラルネットワークを高速化する方法を提供する。
様々なメムリスタプログラミング回路と基本的なニューロモルフィック回路がシミュレーションされている。
プロジェクトの次のフェーズは、ニューラルネットワークの設計に使用できる基本的なビルディングブロックの設計に関するものです。
論文 参考訳(メタデータ) (2022-08-19T18:04:03Z) - Brain Cortical Functional Gradients Predict Cortical Folding Patterns
via Attention Mesh Convolution [51.333918985340425]
我々は,脳の皮質ジャイロ-サルカル分割図を予測するための新しいアテンションメッシュ畳み込みモデルを開発した。
実験の結果,我々のモデルによる予測性能は,他の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-05-21T14:08:53Z) - Geometric Transformer for End-to-End Molecule Properties Prediction [92.28929858529679]
分子特性予測のためのトランスフォーマーに基づくアーキテクチャを導入し,分子の形状を捉える。
分子幾何学の初期符号化による古典的な位置エンコーダと、学習されたゲート自己保持機構を改変する。
論文 参考訳(メタデータ) (2021-10-26T14:14:40Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z) - Neural Response Interpretation through the Lens of Critical Pathways [52.41018985255681]
本稿では,重要な経路を同定する問題を議論し,入力に対するネットワークの応答の解釈に活用する。
プルーニング由来のスパース経路は、必ずしも重要な入力情報をエンコードするとは限らない。
入力情報の重要な断片を含むスパース経路を確保するため,ニューロンの応答への寄与による経路選択を提案する。
論文 参考訳(メタデータ) (2021-03-31T08:08:41Z) - A biologically plausible neural network for multi-channel Canonical
Correlation Analysis [12.940770779756482]
皮質錐体ニューロンは、複数の神経集団から入力を受け取り、これらの入力を別々の樹状体区画に統合する。
我々は,生物学的に妥当なニューラルネットワークで実装可能なマルチチャネルCAAアルゴリズムを提案する。
生物学的信頼性のためには、ネットワークはオンライン環境で動作し、シナプス更新ルールはローカルである必要がある。
論文 参考訳(メタデータ) (2020-10-01T16:17:53Z) - LORCK: Learnable Object-Resembling Convolution Kernels [1.853658628381862]
セグメント化された器官の輪郭をミリ波で学習する,新しい中空核のクラスを提案する。
提案したカーネルを用いて一連のU-Netライクなニューラルネットワークをトレーニングし、様々な時間的畳み込みシナリオにおけるアイデアの優位性を実証する。
我々の結果は、他のドメイン固有のディープラーニングアプリケーションへの道を開いた。
論文 参考訳(メタデータ) (2020-07-09T23:17:40Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z) - clDice -- A Novel Topology-Preserving Loss Function for Tubular
Structure Segmentation [57.20783326661043]
中心線Dice (short clDice) と呼ばれる新しい類似度尺度を導入する。
理論的には、clDiceは2次元および3次元のセグメンテーションにおけるホモトピー同値までのトポロジー保存を保証する。
我々は、船舶、道路、ニューロン(2Dと3D)を含む5つの公開データセットでソフトクライス損失をベンチマークした。
論文 参考訳(メタデータ) (2020-03-16T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。