論文の概要: Factual recall in linear associative memories: sharp asymptotics and mechanistic insights
- arxiv url: http://arxiv.org/abs/2605.10795v1
- Date: Mon, 11 May 2026 16:24:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.981231
- Title: Factual recall in linear associative memories: sharp asymptotics and mechanistic insights
- Title(参考訳): 線形連想記憶におけるファクチュアルリコール--急激な漸近と機械的考察
- Authors: Alessio Giorlandino, Sebastian Goldt, Antoine Maillard,
- Abstract要約: ニューラルネットワークによる入力出力関連の保存と検索の限界について検討する。
線形連想メモリは$p$入力埋め込みを$mathbbRd$で対応する$d$次元のターゲットにマッピングする。
分離されたモデルでは最大$p_c log p_c / d2 = 1 / 2$のアソシエーションを保存できることを示す。
- 参考スコア(独自算出の注目度): 11.11958822145404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models demonstrate remarkable ability in factual recall, yet the fundamental limits of storing and retrieving input--output associations with neural networks remain unclear. We study these limits in a minimal setting: a linear associative memory that maps $p$ input embeddings in $\mathbb{R}^d$ to their corresponding~$d$-dimensional targets via a single layer, requiring each mapped input to be well separated from all other targets. Unlike in supervised classification, this strict separation induces~$p$ constraints per association and produces strong correlations between constraints that make a direct characterisation of the storage capacity difficult. Here, we provide a precise characterisation of this capacity in the following way. We first introduce a decoupled model in which each input has its own independent set of competing outputs, and provide numerical and analytical evidence that this decoupled model is equivalent to the original model in terms of storage capacity, spectra of the learnt weights, and storage mechanism. Using tools from statistical physics, we show that the decoupled model can store up to $p_c \log p_c / d^2 = 1 / 2$ associations, and generalise the computation of $p_c$ to linear two-layer architectures. Our analysis also gives mechanistic insight into how the optimal solution improves over a naïve Hebbian learning rule: rather than boosting input-output alignments with broad fluctuations, the optimal solution raises the correct scores just above the extreme-value threshold set by the competing outputs. These findings give a sharp statistical-physics characterisation of factual storage in linear networks and provide a baseline for understanding the memory capacity of more realistic neural architectures.
- Abstract(参考訳): 大規模な言語モデルは、事実のリコールにおいて顕著な能力を示すが、入力-出力関連をニューラルネットワークに格納し、取り出す基本的な限界は、まだ不明である。
これらの制限を最小限の設定で検討する:$p$の入力埋め込みを$\mathbb{R}^d$で対応する~$d$次元のターゲットにマッピングする線形連想メモリ。
教師付き分類とは異なり、この厳密な分離は協会ごとの制約~$p$を誘導し、記憶容量の直接的特徴付けを困難にする制約間の強い相関を生み出す。
ここでは、以下の方法で、この能力の正確な特徴付けを行う。
まず、各入力がそれぞれ独立して競合する出力を持つ疎結合モデルを導入し、この疎結合モデルは、記憶容量、学習重量のスペクトル、記憶機構の点で、元のモデルと等価であることを示す数値的および解析的な証拠を提供する。
統計物理学のツールを用いて、疎結合モデルは最大$p_c \log p_c / d^2 = 1 / 2$の関連を保存でき、$p_c$の計算を線形二層アーキテクチャに一般化できることを示す。
最適解は、広いゆらぎを伴う入出力アライメントを高めるのではなく、競合する出力によって設定された極値閾値の直上において正しいスコアを上げる。
これらの知見は、線形ネットワークにおける事実記憶の統計的特徴を鋭く表現し、より現実的なニューラルネットワークの記憶能力を理解するためのベースラインを提供する。
関連論文リスト
- Adaptive Memory Decay for Log-Linear Attention [1.0099625992507715]
シーケンスモデルは、メモリ容量と計算効率の根本的なトレードオフに直面している。
ログ線形の注意は、Fenwickツリー階層をまたいでメモリを整理することで、このトレードオフをナビゲートする。
我々は、軽量な2層構造を用いて入力から直接学習し、位置よりもコンテンツに適応する、トーケン毎のレベル減衰を生成することを提案する。
論文 参考訳(メタデータ) (2026-05-07T21:05:28Z) - LINA: Linear Autoregressive Image Generative Models with Continuous Tokens [56.80443965097921]
連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。
このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。
LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
論文 参考訳(メタデータ) (2026-01-30T06:44:33Z) - Bound by semanticity: universal laws governing the generalization-identification tradeoff [8.437463955457423]
有限分解能の類似性は、単なる玩具・模型の人工物ではなく、基本的な創発的な情報制約であることを示す。
これらの結果は、一般化識別トレードオフの正確な理論を提供し、意味論的解決がディープネットワークや脳の表現能力をどのように形成するかを明らかにする。
論文 参考訳(メタデータ) (2025-06-01T15:56:26Z) - Bilinear Convolution Decomposition for Causal RL Interpretability [0.0]
強化学習(RL)モデルを解釈する試みは、しばしば帰属や探究のような高度な技術に依存している。
本研究では、畳み込みニューラルネットワーク(ConvNets)の非線形性を双線型変種に置き換え、これらの制限に対処可能なモデルのクラスを作成することを提案する。
モデルフリー強化学習環境では,バイリニアモデルの変形が相容れないことを示し,ProcGen環境上での並べ比較を行う。
論文 参考訳(メタデータ) (2024-12-01T19:32:04Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Implicit Bias and Fast Convergence Rates for Self-attention [26.766649949420746]
本稿では,変圧器の定義機構である自己注意の基本的な最適化原理について考察する。
線形分類におけるデコーダを用いた自己アテンション層における勾配ベースの暗黙バイアスを解析する。
論文 参考訳(メタデータ) (2024-02-08T15:15:09Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Relative gradient optimization of the Jacobian term in unsupervised deep
learning [9.385902422987677]
データを正しく記述した表現的確率モデルを学習することは、機械学習におけるユビキタスな問題である。
このタスクには深度モデルが広く使用されているが、その最大可能性に基づくトレーニングでは、ジャコビアンの対数行列式を推定する必要がある。
このようなニューラルネットワークの正確なトレーニングのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-26T16:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。