論文の概要: Multi-Head Attention as Ensemble Nadaraya-Watson Estimation: Variance Reduction, Decorrelation, and Optimal Head Diversity
- arxiv url: http://arxiv.org/abs/2605.20271v1
- Date: Mon, 18 May 2026 23:43:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.255941
- Title: Multi-Head Attention as Ensemble Nadaraya-Watson Estimation: Variance Reduction, Decorrelation, and Optimal Head Diversity
- Title(参考訳): ナダラヤ・ワトソン推定を組み込んだ多面的注意:変動低減、デコレーション、最適頭部の多様性
- Authors: Ernest Fokoué,
- Abstract要約: 我々は,ナダラヤ・ワトソン(NW)カーネル回帰推定器のアンサンブルとして,マルチヘッドアテンション(MHA)の厳密な理論を開発した。
MHA は H NW 推定器の構造的アンサンブルであり、それぞれがキー空間の異なる学習された射影部分空間で作用することを示す。
頭内デコリレーションの計算可能なスペクトル尺度であるHDI(Head Diversity Index)を導入し,MHA平均二乗誤差がHDIにおいて単調に減少していることを証明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a rigorous statistical theory of multi-head attention (MHA) as an ensemble of Nadaraya-Watson (NW) kernel regression estimators. Building on the algebraic identity between single-head softmax attention and the NW estimator, we prove that MHA is a structured ensemble of H NW estimators, each operating in a distinct learned projection subspace of the key space. We derive an explicit Bias-Variance-Covariance decomposition of the MHA mean squared error, showing that variance reduction depends not merely on the number of heads H but fundamentally on the decorrelation of head outputs. Decorrelation is governed by the principal angles between learned projection subspaces: orthogonal projections yield maximum variance reduction; aligned projections yield none. We introduce the Head Diversity Index (HDI), a computable spectral measure of inter-head decorrelation, and prove that MHA mean squared error is monotonically decreasing in HDI. This provides the first rigorous theoretical explanation for the empirically observed specialization of attention heads. Under a fixed total-dimension budget D = H * d_k, we solve the optimal head-dimension allocation problem, deriving the MSE-minimizing pair (H*, d_k*) from data distribution and regression smoothness. The solution yields a new architectural scaling law: the optimal per-head dimension grows logarithmically with training set size, while the optimal number of heads grows nearly linearly with the total budget D. Our framework unifies three strands of prior work: the NW theory of single-head attention, the general weighting theory for ensemble learning, and the decorrelation-variance-reduction isomorphism between biological and computational ensembles. Multi-head attention is the Transformer's instantiation of a universal principle: identical agents plus diversity-enforcing mechanisms yields emergent optimality.
- Abstract(参考訳): 我々は,ナダラヤ・ワトソン(NW)カーネル回帰推定器のアンサンブルとして,マルチヘッドアテンション(MHA)の厳密な統計理論を開発した。
シングルヘッドソフトマックスアテンションとNW推定器の代数的同一性に基づいて、MHAはHNW推定器の構造的アンサンブルであり、それぞれがキー空間の異なる学習された射影部分空間で動作することを証明する。
MHAの平均二乗誤差を明示的にバイアス-分散-共分散分解することにより、分散の低減はヘッド数Hだけでなく、ヘッド出力のデコリレーションにも依存することを示す。
退化は、学習された射影部分空間の間の主角によって支配される:直交射影は最大分散還元をもたらす; 整列射影は、何も生じない。
頭内デコレーションの計算可能なスペクトル尺度である頭部多様性指数(HDI)を導入し,MHA平均二乗誤差がHDIにおいて単調に減少していることを証明する。
これは、経験的に観察されたアテンションヘッドの特殊化に関する、最初の厳密な理論的説明を提供する。
固定された全次元予算 D = H * d_k の下で、データ分布と回帰滑らか性から MSE最小化ペア (H*, d_k*) を導出し、最適な頭部次元割り当て問題を解く。
本研究の枠組みは, 単頭注目のNW理論, アンサンブル学習の一般重み付け理論, 生物学的および計算的アンサンブル間のデコリレーション-分散-還元同型という, 先行研究の3つのストランドを統一するものである。
マルチヘッドの注意はトランスフォーマーの普遍原理のインスタンス化であり、同一のエージェントと多様性を付与するメカニズムは創発的最適性をもたらす。
関連論文リスト
- Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - HeteroJIVE: Joint Subspace Estimation for Heterogeneous Multi-View Data [7.187267927910277]
統計的不均一性を考慮した重み付き2段階スペクトルアルゴリズムHeteroJIVEを提案する。
本稿では,反復的な改善を必要とせずに,O(K-1/2)$レートをアルゴリズムが達成できることを実証する。
TCGA-BRCAマルチオミクスデータの適用により,HeteroJIVEの優位性が検証された。
論文 参考訳(メタデータ) (2025-12-02T15:28:07Z) - Stability and Generalization of the Decentralized Stochastic Gradient
Descent Ascent Algorithm [80.94861441583275]
本稿では,分散勾配勾配(D-SGDA)アルゴリズムの一般化境界の複雑さについて検討する。
本研究は,D-SGDAの一般化における各因子の影響を解析した。
また、最適凸凹設定を得るために一般化とバランスをとる。
論文 参考訳(メタデータ) (2023-10-31T11:27:01Z) - Quantifying predictive uncertainty of aphasia severity in stroke patients with sparse heteroscedastic Bayesian high-dimensional regression [47.1405366895538]
高次元データに対する疎線型回帰法は、通常、残留物が一定の分散を持つと仮定するが、これは実際には破ることができる。
本稿では,ヘテロセダスティック分割経験的ベイズ期待条件最大化アルゴリズムを用いて,高次元ヘテロセダスティック線形回帰モデルを推定する。
論文 参考訳(メタデータ) (2023-09-15T22:06:29Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - ER: Equivariance Regularizer for Knowledge Graph Completion [107.51609402963072]
我々は、新しい正規化器、すなわち等分散正規化器(ER)を提案する。
ERは、頭と尾のエンティティ間の意味的等価性を利用することで、モデルの一般化能力を高めることができる。
実験結果から,最先端関係予測法よりも明確かつ実質的な改善が示された。
論文 参考訳(メタデータ) (2022-06-24T08:18:05Z) - Jointly Modeling and Clustering Tensors in High Dimensions [6.072664839782975]
テンソルの合同ベンチマークとクラスタリングの問題を考察する。
本稿では,統計的精度の高い近傍に幾何的に収束する効率的な高速最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-15T21:06:16Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Non-asymptotic Optimal Prediction Error for Growing-dimensional
Partially Functional Linear Models [0.951828574518325]
予測誤差の最大値と最大値の上限を示す。
過剰な予測リスクの正確な上限は、非漸近的な形で示される。
モデルのKulback-Leibler分散の正則性仮定の下で、非漸近ミニマックス下界を導出する。
論文 参考訳(メタデータ) (2020-09-10T08:49:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。