論文の概要: Scaling Limits of Long-Context Transformers
- arxiv url: http://arxiv.org/abs/2605.08505v1
- Date: Fri, 08 May 2026 21:39:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.693352
- Title: Scaling Limits of Long-Context Transformers
- Title(参考訳): 長周期変圧器のスケーリング限界
- Authors: Giuseppe Bruno, Shi Chen, Zhengjiang Lin, Yury Polyanskiy, Philippe Rigollet,
- Abstract要約: 固定クエリとランダムコンテキストを用いたソフトマックス自己アテンションの長文制限について検討する。
選択度が出現する臨界スケールは,0 に近い距離-クエリ分布の局所指数によって決定されることを示す。
- 参考スコア(独自算出の注目度): 24.95451131347537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the long-context limit of softmax self-attention with a fixed query and a random context of $n$ i.i.d. keys on the sphere, viewing the inverse temperature $β_n$ as the scaling parameter that decides whether attention degenerates into uniform averaging or collapses onto the single closest key. We show that the critical scale at which selectivity emerges is determined by the local exponent of the distance-to-query distribution near zero rather than by global features of the context, and scales like $β_n^\ast \asymp n^{2/(d-1)}$ for uniform keys on $\mathbb{S}^{d-1}$. Furthermore, we characterize the limiting laws of the ordered attention weights and of the attention output across all regimes of $β_n$: a subcritical regime in which the output reduces to a local average around $q$ with explicit deterministic bias and Gaussian fluctuations; a critical regime in which a finite collection of nearest keys retains macroscopic mass without single-key collapse; and a supercritical regime in which all mass concentrates on the closest key. Of notable interest is the subcritical case with identity value matrix where the attention map approximately implements a backward heat equation.
- Abstract(参考訳): 固定されたクエリとランダムなコンテキストを持つソフトマックス自己アテンションの長期コンテキスト限界について検討し、逆温度の$β_n$を1つの最も近いキーに一様に縮退するか、あるいは崩壊するかを決定するスケーリングパラメータとして見る。
選択性の出現する臨界スケールは、文脈のグローバルな特徴よりも、ゼロに近い距離-クエリ分布の局所指数によって決定され、$β_n^\ast \asymp n^{2/(d-1)}$のようなスケールは、$\mathbb{S}^{d-1}$上の一様キーに対して決定される。
さらに、命令された注意重みの制限則と、出力が明示的な決定的バイアスとガウス的ゆらぎを持つ局所的な平均$q$に減少するサブクリティカルな規則、鍵の有限なコレクションが単一キーの崩壊なしにマクロな質量を保持するクリティカルな規則、および全ての質量が最も近いキーに集中する超クリティカルな規則を特徴付ける。
注目すべきは、注意マップが後方の熱方程式を概ね実装するアイデンティティ値行列を持つサブクリティカルケースである。
関連論文リスト
- Extreme-Value Criticality and Gain Decomposition at the Integer Quantum Hall Transition [6.416957991576607]
最大波動関数振幅は,大域的な利得と本質的な極端成分に分離されることを示す。
極端観測可能量(Extreme observables)は、オープン量子系における相関臨界性のロバストなプローブを提供する。
論文 参考訳(メタデータ) (2026-03-16T13:52:41Z) - Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Near-Optimal Clustering in Mixture of Markov Chains [74.3828414695655]
我々は、長さ$H$の軌跡を、大きさ$S$の有限状態空間上の未知のエルゴードマルコフ鎖の1つによって生成される、$T$ trajectories of length $H$の問題を研究する。
我々は、連鎖の遷移核間の重み付きKL分散によって支配されるクラスタリングエラー率に基づいて、インスタンス依存で高い確率の低い境界を導出する。
次に,新しい2段階クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-02T05:10:40Z) - Quantum Supercritical Crossover with Dynamical Singularity [2.9659182523095047]
我々は、この顕著な超臨界の概念を古典的から量子臨界点に近い量子系へと拡張する。
我々は、応答関数だけでなく、量子情報量によって決定される量子超臨界(QSC)クロスオーバー線の存在を明らかにする。
我々の研究は、量子多体系におけるQSCクロスオーバーの平衡内および外への探索の道を開いた。
論文 参考訳(メタデータ) (2024-07-07T17:52:02Z) - Quantum-critical properties of the one- and two-dimensional random transverse-field Ising model from large-scale quantum Monte Carlo simulations [0.0]
本研究では1次元と2次元でT = 0$の焼成障害を有する強磁性横磁場イジングモデルについて検討する。
実効的なゼロ温度シミュレーションの強調は、既存の文献におけるいくつかの矛盾を解消する。
論文 参考訳(メタデータ) (2024-03-08T11:20:42Z) - Average entanglement entropy of midspectrum eigenstates of
quantum-chaotic interacting Hamiltonians [0.0]
正の$O(1)$補正の大きさは、ランダムな純状態の予測値よりもわずかに大きい。
我々は、ランダムな純粋状態の予測から、$O(1)$の偏差の数値的に観測された$nu$依存性を記述する単純な式を導出する。
論文 参考訳(メタデータ) (2023-03-23T18:00:02Z) - Optimal and instance-dependent guarantees for Markovian linear stochastic approximation [47.912511426974376]
標準スキームの最後の繰り返しの2乗誤差に対して、$t_mathrmmix tfracdn$の非漸近境界を示す。
マルコフ雑音による政策評価について,これらの結果のまとめを導出する。
論文 参考訳(メタデータ) (2021-12-23T18:47:50Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - On Linear Stochastic Approximation: Fine-grained Polyak-Ruppert and
Non-Asymptotic Concentration [115.1954841020189]
The inequality and non-asymptotic properties of approximation procedure with Polyak-Ruppert averaging。
一定のステップサイズと無限大となる反復数を持つ平均的反復数に対する中心極限定理(CLT)を証明する。
論文 参考訳(メタデータ) (2020-04-09T17:54:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。