論文の概要: Token Sample Complexity of Attention
- arxiv url: http://arxiv.org/abs/2512.10656v1
- Date: Thu, 11 Dec 2025 14:02:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.39324
- Title: Token Sample Complexity of Attention
- Title(参考訳): Token Sample Complexity of Attention
- Authors: Léa Bohbot, Cyril Letrouit, Gabriel Peyré, François-Xavier Vialard,
- Abstract要約: 我々は、$n$トークンで計算された注意が無限のトーケン限界に収束する速度を推定する。
コンパクトに支持された分布に対して、最初の結果は、注意写像が半径$R$の球に一様収束することを示す。
また,注意パラメータが無限大に近づき,ソフトマックスがハードマックスに近づく傾向についても検討する。
- 参考スコア(独自算出の注目度): 20.89022639697809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As context windows in large language models continue to expand, it is essential to characterize how attention behaves at extreme sequence lengths. We introduce token-sample complexity: the rate at which attention computed on $n$ tokens converges to its infinite-token limit. We estimate finite-$n$ convergence bounds at two levels: pointwise uniform convergence of the attention map, and convergence of moments for the transformed token distribution. For compactly supported (and more generally sub-Gaussian) distributions, our first result shows that the attention map converges uniformly on a ball of radius $R$ at rate $C(R)/\sqrt{n}$, where $C(R)$ grows exponentially with $R$. For large $R$, this estimate loses practical value, and our second result addresses this issue by establishing convergence rates for the moments of the transformed distribution (the token output of the attention layer). In this case, the rate is $C'(R)/n^β$ with $β<\tfrac{1}{2}$, and $C'(R)$ depends polynomially on the size of the support of the distribution. The exponent $β$ depends on the attention geometry and the spectral properties of the tokens distribution. We also examine the regime in which the attention parameter tends to infinity and the softmax approaches a hardmax, and in this setting, we establish a logarithmic rate of convergence. Experiments on synthetic Gaussian data and real BERT models on Wikipedia text confirm our predictions.
- Abstract(参考訳): 大規模言語モデルにおけるコンテキストウィンドウは拡大し続けており、極端シーケンス長で注意がどのように振る舞うかを特徴付けることが不可欠である。
我々はトークン・サンプルの複雑さを導入し、$n$トークン上で注意が計算される速度は無限のトーケン限界に収束する。
有限$n$収束境界を2つのレベルで推定する: 注意写像の点的一様収束と、変換されたトークン分布に対するモーメントの収束である。
コンパクトに支持された(そしてより一般的にはガウス以下の)分布に対して、最初の結果は、アテンション写像が半径$R$の球面に、速度$C(R)/\sqrt{n}$で一様収束し、$C(R)$は指数関数的に$R$で成長することを示している。
大規模な$R$の場合、この推定は実用的な値を失い、2番目の結果は変換された分布のモーメント(注目層のトークン出力)の収束率を確立することでこの問題に対処する。
この場合のレートは$C'(R)/n^β$で$β<\tfrac{1}{2}$であり、$C'(R)$は分布の支持の大きさに多項式に依存する。
指数$β$は、トークン分布の注意幾何学とスペクトル特性に依存する。
また、注意パラメータが無限大に近づき、ソフトマックスがハードマックスに近づく傾向を考察し、この設定では対数収束率を確立する。
合成ガウスデータと実際のBERTモデルのウィキペディアテキストによる実験は、我々の予測を裏付けるものである。
関連論文リスト
- Dimension-free Private Mean Estimation for Anisotropic Distributions [55.86374912608193]
以前の$mathRd上の分布に関する民間推定者は、次元性の呪いに苦しむ。
本稿では,サンプルの複雑さが次元依存性を改善したアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-01T17:59:53Z) - Convergence of Unadjusted Langevin in High Dimensions: Delocalization of Bias [21.64772960240025]
問題の次元が$d$になるにつれて、所望の誤差内で収束を保証するのに必要なイテレーションの数が増加することを示す。
私たちが取り組んだ重要な技術的課題は、収束を測定するための$W_2,ellinfty$メートル法に一段階の縮約性がないことである。
論文 参考訳(メタデータ) (2024-08-20T01:24:54Z) - Further Understanding of a Local Gaussian Process Approximation: Characterising Convergence in the Finite Regime [1.3518297878940662]
非常に正確かつ大規模に拡張可能なGPnn回帰モデルに対するカーネル関数の一般的な選択は、データセットサイズ$n$の増加に伴って徐々に振る舞いに収束することを示す。
同様の境界はモデルの不特定の下で見出され、MSEと重要な校正計量の総合的な収束率を与えるために組み合わせられる。
論文 参考訳(メタデータ) (2024-04-09T10:47:01Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Strong uniform convergence of Laplacians of random geometric and
directed kNN graphs on compact manifolds [0.0]
この作用素の微分ラプラス・ベルトラミ作用素へのほぼ確実に一様収束は、$n$が無限大の傾向にあるときに研究する。
この研究は、過去15年間の既知の結果を拡張した。
論文 参考訳(メタデータ) (2022-12-20T14:31:06Z) - A Law of Robustness beyond Isoperimetry [84.33752026418045]
我々は、任意の分布上でニューラルネットワークパラメータを補間する頑健性の低い$Omega(sqrtn/p)$を証明した。
次に、$n=mathrmpoly(d)$のとき、スムーズなデータに対する過度なパラメータ化の利点を示す。
我々は、$n=exp(omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。
論文 参考訳(メタデータ) (2022-02-23T16:10:23Z) - A Law of Iterated Logarithm for Multi-Agent Reinforcement Learning [3.655021726150368]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)では、複数のエージェントが共通の環境と相互作用し、シーケンシャルな意思決定において共有問題を解く。
我々は、MARLで有用な分散非線形近似スキームの族を反復する新しい法則を導出する。
論文 参考訳(メタデータ) (2021-10-27T08:01:17Z) - Linear Time Sinkhorn Divergences using Positive Features [51.50788603386766]
エントロピー正則化で最適な輸送を解くには、ベクトルに繰り返し適用される$ntimes n$ kernel matrixを計算する必要がある。
代わりに、$c(x,y)=-logdotpvarphi(x)varphi(y)$ ここで$varphi$は、地上空間から正のorthant $RRr_+$への写像であり、$rll n$である。
論文 参考訳(メタデータ) (2020-06-12T10:21:40Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。