論文の概要: How Does Attention Help? Insights from Random Matrices on Signal Recovery from Sequence Models
- arxiv url: http://arxiv.org/abs/2605.06826v1
- Date: Thu, 07 May 2026 18:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.542521
- Title: How Does Attention Help? Insights from Random Matrices on Signal Recovery from Sequence Models
- Title(参考訳): 注意はどのように役立つか? ランダム行列からの洞察がシーケンスモデルからの信号回復に及ぼす影響
- Authors: Mohamed El Amine Seddik,
- Abstract要約: 固有値分布の制限,外乱固有値,および隠れ信号との固有ベクトルアライメントの正確な特徴を導出する。
パラメータフリー因果自己アテンションを$/d$のスコアスケーリングで行うと、平均プールよりも信号の回復が向上する決定論的調和重みが得られることを示す。
- 参考スコア(独自算出の注目度): 6.758792133077052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the spectral properties of sample covariance matrices constructed from pooled sequence representations, where token embeddings are drawn from a fixed two-class Gaussian mixture table and pooled via (fixed) attention weights. Working in the high-dimensional regime $d,V,N\to\infty$ with $d/V\toδ$ and $d/N\toγ$, we derive exact characterizations of the limiting eigenvalue distribution, outlier eigenvalues, and eigenvector alignment with the hidden signal. The bulk spectrum follows a non-Marchenko--Pastur law given by the free multiplicative convolution $κ(MP_δ\boxtimes MP_γ)$, reflecting the finite vocabulary structure. Signal recovery undergoes two successive BBP-type phase transitions characterized by the scalars: $δ,γ,α=w^{\top} R w$ and $κ=\|w\|^2$, where $w$ denotes the attention pooling weights and $R$ the positional correlation matrix. An aftermath of our analysis demonstrates that the optimal attention weights maximizing the signal-to-noise ratio $α/κ$ are given by the (normalized) top eigenvector of $R$, and we show (as a particular case of our analysis) that parameter-free causal self-attention with $τ/d$ score scaling yields deterministic harmonic weights that improve signal recovery over mean pooling whenever early tokens carry more signal. Extensive simulations confirm sharp agreement between theory and finite-dimensional experiments.
- Abstract(参考訳): そこでは,固定された2クラスガウス混合テーブルからトークンの埋め込みを抽出し,(固定された)注意重みを通したサンプル共分散行列のスペクトル特性について検討した。
高次元レジーム $d,V,N\to\infty$ を $d/V\toδ$ と $d/N\toγ$ で扱うと、制限された固有値分布、外接固有値、および隠れた信号との固有ベクトルアライメントの正確な特徴付けを導出する。
バルクスペクトルは、自由乗法的畳み込み$κ(MP_δ\boxtimes MP_γ)$によって与えられる非マルテンコ-パストゥル法に従っており、有限語彙構造を反映している。
信号回復は、スカラーが$δ,γ,α=w^{\top} R w$と$κ=\|w\|^2$の2つの連続したBBP型位相遷移を特徴とする。
分析の結果,信号対雑音比$α/κ$を最大化する最適な注意重みはR$の(正規化)トップ固有ベクトルによって与えられることが示され,パラメータフリー因果自己アテンションが$τ/d$のスコアスケーリングにより決定論的調和重みとなり,早期トークンがより多くの信号を運ぶたびに平均プールよりも信号リカバリが向上することを示した。
大規模なシミュレーションにより、理論と有限次元の実験の間に鋭い一致が確認される。
関連論文リスト
- When Does $\ell_2$-Boosting Overfit Benignly? High-Dimensional Risk Asymptotics and the $\ell_1$ Implicit Bias [15.113649527486276]
良性オーバーフィッティングが線形レートで失敗することを示します。
この局所化機構は信号の存在下で持続するべきであるが、正確な信号-雑音分解は未解決の問題である。
論文 参考訳(メタデータ) (2026-05-07T14:14:09Z) - Geometric and Spectral Alignment for Deep Neural Network I [12.227949990332363]
我々はフロベニウス正規化層因子の特異スペクトルに対する決定論的商-幾何推定を証明した。
フルランク因子は$mathrmGL(d)$から$Amapsto Atop A$によって正の円錐にマッピングされ、次に順序付けられた固有値データにマップされる。
正規化残鎖に対する近似パワーローおよび計量チャートバージョン、逆下界、フィッシャー--KL/バーズ作用推定、およびほぼ同一性拡張を証明した。
論文 参考訳(メタデータ) (2026-05-04T00:07:24Z) - Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning [61.07540493350384]
自己蒸留(英: Self-distillation, SD)とは、教師自身の予測と地道の混合で学生を訓練する過程である。
任意の予測リスクに対して、各正規化レベルにおいて、最適に混合された学生がリッジ教師に改善されることが示される。
本稿では,グリッド探索やサンプル分割,再構成なしに$star$を推定する一貫したワンショットチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T17:21:15Z) - Learning quadratic neural networks in high dimensions: SGD dynamics and scaling laws [21.18373933718468]
高次元状態における二次活性化関数を持つ2層ニューラルネットワークの勾配に基づくトレーニングの最適化とサンプル複雑性について検討する。
本稿では,特徴学習体制における動態の急激な解析を行い,人口制限と有限サンプルの離散化について述べる。
論文 参考訳(メタデータ) (2025-08-05T17:57:56Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Optimal Online Generalized Linear Regression with Stochastic Noise and
Its Application to Heteroscedastic Bandits [88.6139446295537]
一般化線形モデルの設定におけるオンライン一般化線形回帰の問題について検討する。
ラベルノイズに対処するため、古典的追従正規化リーダ(FTRL)アルゴリズムを鋭く解析する。
本稿では,FTRLに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T08:25:26Z) - Towards Designing Optimal Sensing Matrices for Generalized Linear
Inverse Problems [26.251298081065304]
逆問題 $mathbfy= f(mathbfAx)$ を考える。
スパイカースペクトルが回復性能を損なうか助かるかは、$f$に依存する。
論文 参考訳(メタデータ) (2021-11-05T03:18:50Z) - Analytic Characterization of the Hessian in Shallow ReLU Models: A Tale
of Symmetry [9.695960412426672]
我々は,スプリアスミニマの様々な家系でヘッセンを解析的に特徴付ける。
特に、$dge k$ 標準ガウス入力について、 (a) ヘッセンの $dk$ 固有値の内、$dk - O(d)$ が 0 に近づき、 (b) $Omega(d)$ 固有値は $k$ で線型的に増加することを証明している。
論文 参考訳(メタデータ) (2020-08-04T20:08:35Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。