論文の概要: Transformers as Measure-Theoretic Associative Memory: A Statistical Perspective and Minimax Optimality
- arxiv url: http://arxiv.org/abs/2602.01863v1
- Date: Mon, 02 Feb 2026 09:34:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.045414
- Title: Transformers as Measure-Theoretic Associative Memory: A Statistical Perspective and Minimax Optimality
- Title(参考訳): 確率論的連想記憶としての変圧器:統計的視点と最小最適性
- Authors: Ryotaro Kawata, Taiji Suzuki,
- Abstract要約: トランスフォーマーは、コンテント順応可能な検索とコンテキスト、原則として長さを活用できる能力を通じてエクササイズする。
確率尺度のレベルで連想記憶をリキャストし、コンテキストを無拘束トークン上の分布として扱う。
浅度測度理論変換器は入力密度のスペクトル仮定に基づいてリコール・アンド・予測マップを学習することを示す。
- 参考スコア(独自算出の注目度): 52.424255020469595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers excel through content-addressable retrieval and the ability to exploit contexts of, in principle, unbounded length. We recast associative memory at the level of probability measures, treating a context as a distribution over tokens and viewing attention as an integral operator on measures. Concretely, for mixture contexts $ν= I^{-1} \sum_{i=1}^I μ^{(i^*)}$ and a query $x_{\mathrm{q}}(i^*)$, the task decomposes into (i) recall of the relevant component $μ^{(i^*)}$ and (ii) prediction from $(μ_{i^*},x_\mathrm{q})$. We study learned softmax attention (not a frozen kernel) trained by empirical risk minimization and show that a shallow measure-theoretic Transformer composed with an MLP learns the recall-and-predict map under a spectral assumption on the input densities. We further establish a matching minimax lower bound with the same rate exponent (up to multiplicative constants), proving sharpness of the convergence order. The framework offers a principled recipe for designing and analyzing Transformers that recall from arbitrarily long, distributional contexts with provable generalization guarantees.
- Abstract(参考訳): トランスフォーマーは、コンテンツ順応可能な検索と、原則として非有界長のコンテキストを活用できる能力を通じて、抜粋する。
我々は,確率測度レベルで連想記憶をリキャストし,コンテキストをトークン上の分布として扱うとともに,測定上の積分演算子として注目する。
具体的には、混合コンテキストに対して$ν= I^{-1} \sum_{i=1}^I μ^{(i^*)}$ とクエリ $x_{\mathrm{q}}(i^*)$ とすると、そのタスクは分解される。
i) 関連するコンポーネント $μ^{(i^*)}$ をリコールし、
(ii)$(μ_{i^*},x_\mathrm{q})$からの予測。
実験的リスク最小化によって訓練された学習ソフトマックスの注意(フリーズカーネルではない)について検討し,MLPを用いた浅度測度理論変換器が入力密度のスペクトル仮定に基づいてリコール・アンド・予測マップを学習することを示す。
さらに、同じ速度指数(乗法定数まで)で一致するミニマックス下界を確立し、収束順序のシャープさを証明した。
このフレームワークは、任意の長さの分散コンテキストから証明可能な一般化を保証するトランスフォーマーを設計し、分析するための原則化されたレシピを提供する。
関連論文リスト
- Singular Bayesian Neural Networks [1.2891210250935148]
ベイズニューラルネットワークはキャリブレーションされた不確かさを約束するが、標準平均体ガウス後方に対する$O(mn)$パラメータを必要とする。
我々は、ルベーグ測度に関して特異な後部を誘導し、ランク-$r$多様体に集中する。
複素項が $sqrtr(m+n)$ ではなく $sqrtm n$ としてスケールするPAC-Bayes 一般化境界を導出し、誤差を最適化とランク誘導バイアスに分解する損失境界を証明する。
論文 参考訳(メタデータ) (2026-01-30T23:06:34Z) - Phase-space entropy at acquisition reflects downstream learnability [54.4100065023873]
楽器分解位相空間に基づく取得レベルスカラー$S_mathcal B$を提案する。
本稿では, (S_mathcal B) が周期サンプリングの位相空間コヒーレンスを正確に同定できることを理論的に示す。
$|S_mathcal B|$は一貫してサンプリングジオメトリをランク付けし、トレーニングなしで下流での再構築/認識の困難を予測します。
論文 参考訳(メタデータ) (2025-12-22T10:03:51Z) - Approximation Bounds for Transformer Networks with Application to Regression [9.549045683389085]
H"older 関数と Sobolev 関数に対する Transformer ネットワークの近似機能について検討する。
シーケンス・ツー・シーケンス・マッピングを近似した標準トランスフォーマー・ネットワークのための新しい上限を確立する。
トランスフォーマーの自己アテンション層がカラム平均化を行うことができれば,ネットワークはシーケンス・ツー・シーケンスのH"older関数を近似することができることを示す。
論文 参考訳(メタデータ) (2025-04-16T15:25:58Z) - Exact Sequence Interpolation with Transformers [0.0]
変換器は, 有限入力列のデータセットを$mathbbRd$, $dgeq 2$で正確に補間できることを示す。
具体的には、$mathbbRd$の任意の長さの$N$シーケンスと$m1, dots, mN in MathcalN$の出力シーケンスを与えられた場合、$mathcalO(sum_j=1N mj)$ブロックと$で変換器を構築する。
論文 参考訳(メタデータ) (2025-02-04T12:31:00Z) - Precise Asymptotics of Bagging Regularized M-estimators [20.077783679095443]
我々は,アンサンブル推定器の正方形予測リスクを,正規化M値推定器のサブタグ化(サブサンプルブートストラップ集約)により特徴付ける。
我々の分析の鍵は、重なり合うサブサンプル上の推定値と残差との相関関係の結合挙動に関する新しい結果である。
サブサンプルサイズ,アンサンブルサイズ,正規化の併用最適化は,全データに対してのみ,正規化器の最適化を著しく上回る。
論文 参考訳(メタデータ) (2024-09-23T17:48:28Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。