論文の概要: Inhibitory Cross-Talk Enables Functional Lateralization in Attention-Coupled Latent Memory
- arxiv url: http://arxiv.org/abs/2603.03355v1
- Date: Fri, 27 Feb 2026 08:58:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.014029
- Title: Inhibitory Cross-Talk Enables Functional Lateralization in Attention-Coupled Latent Memory
- Title(参考訳): 注意結合型潜在記憶における機能的側方化を可能にする阻害的クロストーク
- Authors: Hong Jeong,
- Abstract要約: 本稿では,検索,統合,書き込みバック操作を同時に行うメモリ拡張変換器を提案する。
我々は、メモリを左右に分割し、符号制御されたクロストーク行列$W_s$で結合し、この結合の符号が特殊化に決定的であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a memory-augmented transformer in which attention serves simultaneously as a retrieval, consolidation, and write-back operator. The core update, $A^\top A V W$, re-grounds retrieved values into persistent memory slots via the Gram matrix $A^\top A$, providing a principled tripartite projection: observation space $\to$ latent memory $\to$ supervised transformation. We partition the memory into lateralized left and right banks coupled through a sign-controlled cross-talk matrix $W_s$, and show that the sign of this coupling is decisive for specialization. Excitatory cross-talk ($s=+1$) causes bank-dominance collapse: one bank monopolises all inputs and $\mathcal{P}_{ct} \to 0.5$, despite lowering task loss. Inhibitory cross-talk ($s=-1$), motivated by the net inhibitory effect of callosal projections in human cortex, actively suppresses contralateral bank activation and achieves saturated specialization ($\mathcal{D}_{sep} = \pm 1.00$, $\mathcal{P}_{ct} \approx 0$). On a controlled symbolic benchmark combining an episodic bijection cipher (requiring associative recall) with a strict arithmetic progression (requiring rule extraction), the inhibitory model reduces cipher-domain loss by $124{\times}$ over the baseline while matching it on the arithmetic domain, confirming that persistent lateralized memory is necessary for episodic recall but not for rule-based prediction.
- Abstract(参考訳): 本稿では,検索,統合,書き込みバック操作を同時に行うメモリ拡張変換器を提案する。
コアアップデートである$A^\top A V W$は、Gram行列$A^\top A$を介して、取得した値を永続メモリスロットに再基底し、原則化された三部分射を提供する。
我々は、メモリを左右に分割し、符号制御されたクロストーク行列$W_s$で結合し、この結合の符号が特殊化に決定的であることを示す。
1つの銀行が全ての入力を独占し、$\mathcal{P}_{ct} \to 0.5$はタスクの損失を減らしたが。
阻害クロストーク(s=-1$)は、ヒト大脳皮質におけるカルロ投射のネット阻害効果によって動機付けられ、対側的銀行活性化を積極的に抑制し、飽和特殊化(\mathcal{D}_{sep} = \pm 1.00$, $\mathcal{P}_{ct} \approx 0$)を達成する。
暗黙的ビジェクション暗号(連想的リコール)と厳密な算術進行(規則抽出の要求)を組み合わせた制御されたシンボリックベンチマークにおいて、抑制モデルは、暗号ドメインの損失を124{\times}$に減らし、それを算術領域にマッチさせ、エピソディカルリコールには永続的な側方化メモリが必要であるが、ルールベースの予測には必要であることを確認する。
関連論文リスト
- Rank-Aware Spectral Bounds on Attention Logits for Stable Low-Precision Training [0.0]
変圧器における注意スコアは、低精度トレーニングにおけるオーバーフローリスクを最大で支配する2次形式である$S_ij = x_itop M x_j / sqrtd_h$である。
相互作用行列 $M = WQ WKtop$ が階数 $r ll d$ を持つとき、$max_i,j|S_ij|$ は $exp(-d22/) となる。
論文 参考訳(メタデータ) (2026-02-21T14:29:22Z) - Transformers as Measure-Theoretic Associative Memory: A Statistical Perspective and Minimax Optimality [52.424255020469595]
トランスフォーマーは、コンテント順応可能な検索とコンテキスト、原則として長さを活用できる能力を通じてエクササイズする。
確率尺度のレベルで連想記憶をリキャストし、コンテキストを無拘束トークン上の分布として扱う。
浅度測度理論変換器は入力密度のスペクトル仮定に基づいてリコール・アンド・予測マップを学習することを示す。
論文 参考訳(メタデータ) (2026-02-02T09:34:17Z) - Evolution Strategies at the Hyperscale [57.75314521465674]
本稿では,大集団にバックプロップフリーな最適化を拡大するための進化戦略(ES)アルゴリズムEGGROLLを紹介する。
ESは、微分不可能またはノイズの多い目的を処理できる強力なブラックボックス最適化手法のセットである。
EGGROLLはランダム行列を$Ain mathbbRmtimes r, Bin mathbbRntimes r$ with $rll min(m,n)$ とすることでこれらのボトルネックを克服し、低ランク行列摂動を$A Btop$とする。
論文 参考訳(メタデータ) (2025-11-20T18:56:05Z) - Burau representation, Squier's form, and non-Abelian anyons [53.92822954974537]
ブレイド群 $B_3$ のブラウ表現から構築した周波数可変2次元非アベリア的演算順序制御を導入する。
Squier 陽性ウィンドウの向こう側にある$Delta(omega)$の符号変更は、因果順序の交互に構成的かつ破壊的干渉を示す。
数値シミュレーションにより、拡張と抑制の両方が確認され、最小の$B_3$ブレイド制御が確立される。
論文 参考訳(メタデータ) (2025-10-21T00:25:21Z) - Emergence and scaling laws in SGD learning of shallow neural networks [64.48316762675141]
等方性ガウスデータに基づいてP$ニューロンを持つ2層ニューラルネットワークを学習するためのオンライン勾配降下(SGD)の複雑さについて検討した。
平均二乗誤差(MSE)を最小化するために,学生2層ネットワークのトレーニングのためのSGDダイナミックスを高精度に解析する。
論文 参考訳(メタデータ) (2025-04-28T16:58:55Z) - ZETA: Leveraging Z-order Curves for Efficient Top-k Attention [22.90397380324185]
本稿では,全シーケンスに対する過去のトークンの並列クエリを可能にするZETAを提案する。
ZETA は合成textscMulti-Query Associative Recall タスクにおける標準注意性能と一致する。
論文 参考訳(メタデータ) (2025-01-24T15:33:05Z) - Weight decay induces low-rank attention layers [8.746774382296008]
ニューラルネットワークモデルのトレーニングにおいて,重量減衰の影響だけでなく,$L2$-regularizationも検討した。
重み劣化に最適化した場合, キークエリおよび値投影行列製品$W_KTW_Q, PW_V$が注目層内にあることが確認できた。
論文 参考訳(メタデータ) (2024-10-31T11:04:07Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - SynGhost: Invisible and Universal Task-agnostic Backdoor Attack via Syntactic Transfer [22.77860269955347]
事前トレーニングは、データやトレーニングメカニズムの脆弱性によるタスク非依存のバックドア攻撃に悩まされる。
我々は,シンタクティックトランスファーによる,目に見えない,普遍的なタスク非依存のバックドアアタックである$mathttSynGhost$を提案する。
$mathttSynGhost$は、コントラスト学習に基づいて最適なターゲットを適応的に選択し、トレーニング前の空間に均一な分布を生成する。
論文 参考訳(メタデータ) (2024-02-29T08:20:49Z) - Optimal bump functions for shallow ReLU networks: Weight decay, depth
separation and the curse of dimensionality [0.0]
単一の隠蔽層とReLUアクティベーションを持つニューラルネットワークは、原点のターゲットラベル1と単位球の外側の0との放射対称分布から引き出されたデータを補間する。
我々は、一意な放射対称最小化が存在することを証明し、その重み減衰正則化器とリプシッツ定数はそれぞれ$d$と$sqrtd$として成長する。
さらに、ラベルが原点ではなく半径$varepsilon$の球に1ドルを課すと、重量減衰正則化器は指数関数的に$d$で成長することを示した。
論文 参考訳(メタデータ) (2022-09-02T17:14:36Z) - On Submodular Contextual Bandits [92.45432756301231]
作用が基底集合の部分集合であり、平均報酬が未知の単調部分モジュラ函数によってモデル化されるような文脈的包帯の問題を考える。
Inverse Gap Weighting 戦略により,提案アルゴリズムは推定関数の局所的最適度を効率よくランダム化することを示す。
論文 参考訳(メタデータ) (2021-12-03T21:42:33Z) - Projection-free Graph-based Classifier Learning using Gershgorin Disc
Perfect Alignment [59.87663954467815]
グラフベースのバイナリ学習では、既知のラベルのサブセット$hatx_i$を使って未知のラベルを推論する。
ラベルの$x_i$をバイナリ値に制限する場合、問題はNPハードである。
代わりに線形プログラム(LP)の列を解くことにより,高速なプロジェクションフリー手法を提案する。
論文 参考訳(メタデータ) (2021-06-03T07:22:48Z) - GMAT: Global Memory Augmentation for Transformers [45.584411593847406]
集中型アテンションベースの$textitglobal memory$$$M$$$ll L$でスパーストランスフォーマーブロックを拡張することを提案する。
私たちの拡張は、管理可能な$O(Mcdot(L+M))$メモリオーバーヘッドを持ち、以前のスパースソリューションとシームレスに統合できます。
論文 参考訳(メタデータ) (2020-06-05T07:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。