論文の概要: Attention in Constant Time: Vashista Sparse Attention for Long-Context Decoding with Exponential Guarantees
- arxiv url: http://arxiv.org/abs/2602.13804v1
- Date: Sat, 14 Feb 2026 14:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.430094
- Title: Attention in Constant Time: Vashista Sparse Attention for Long-Context Decoding with Exponential Guarantees
- Title(参考訳): 一定時間における注意:指数保証付き長文復号のためのVasista Sparse Attention
- Authors: Vashista Nobaub,
- Abstract要約: 大規模な言語モデルは、長いコンテキストに対する推論コストの大部分を注意に費やします。
我々はこの現象をキーベクトルの凸殻への射影として注意をモデル化することによって定式化する。
本稿では,クエリ毎に小さな候補セットを保持するドロップイン機構であるVasista Sparse Attentionを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models spend most of their inference cost on attention over long contexts, yet empirical behavior suggests that only a small subset of tokens meaningfully contributes to each query. We formalize this phenomenon by modeling attention as a projection onto the convex hull of key vectors and analyzing its entropic (softmax-like) relaxation. Our main theoretical contribution is a face-stability theorem showing that, under a strict complementarity margin (a support gap (Δ) certified by KKT multipliers), entropic attention concentrates on a constant-size active face: the total mass assigned to inactive tokens decays exponentially as (\exp(-Ω(Δ/\varepsilon))), while the error on the active face scales linearly in the temperature/regularization parameter (\varepsilon). This yields a practical criterion for when sparse long-context decoding is safe and provides a principled knob to trade accuracy for compute. Building on these guarantees, we introduce Vashista Sparse Attention, a drop-in mechanism that maintains a small candidate set per query through a paging-style context selection strategy compatible with modern inference stacks. Across long-context evaluations, we observe stable constant-size effective support, strong wall-clock speedups, and minimal quality degradation in the regimes predicted by the support-gap diagnostics. Finally, we discuss deployment implications for privacy-sensitive and air-gapped settings, where interchangeable attention modules enable predictable latency and cost without external retrieval dependencies.
- Abstract(参考訳): 大規模な言語モデルでは、長いコンテキストに対して推論コストの大部分を注意に費やしていますが、経験的な振る舞いは、トークンの小さなサブセットだけがクエリに有意義に寄与していることを示唆しています。
鍵ベクトルの凸体への射影として注意をモデル化し,そのエントロピー(ソフトマックス様)緩和を解析することによって,この現象を定式化する。
我々の主要な理論的貢献は、厳密な相補性マージン(KKT乗算器によって認定されたサポートギャップ(Δ))の下で、エントロピック・アテンションは、一定サイズの活性面に集中していることを示し、非活性なトークンに割り当てられた総質量は指数関数的に崩壊し(\exp(-Ω(Δ/\varepsilon))、活性面上の誤差は温度/正則化パラメータ(\varepsilon)で線形にスケールする。
これにより、スパース長文復号が安全である場合の実用的な基準が得られ、計算の正確性を交換するための原則的なノブが提供される。
これらの保証に基づいて、現代の推論スタックと互換性のあるページングスタイルのコンテキスト選択戦略を通じて、クエリ毎に小さな候補セットを維持するドロップインメカニズムであるVasista Sparse Attentionを導入する。
長期のコンテキスト評価において, 安定な一定サイズの有効サポート, 強い壁時計の高速化, および支持ギャップ診断によって予測される状態の最小品質劣化を観察する。
最後に、プライバシに敏感な設定と空調設定のデプロイメントについて論じる。そこでは、外部の検索依存なしに、アテンションモジュールが予測可能なレイテンシとコストを実現する。
関連論文リスト
- Punctuation-aware Hybrid Trainable Sparse Attention for Large Language Models [44.28116882776357]
textbfPunctuation-aware textbfHybrid textbfSparse textbfAttention textbf(PHSA)を提案する。
具体的には,大域的セマンティック表現と句読点付き境界特徴を融合させ,コアセマンティック構造を保ちながら,計算オーバーヘッドをほとんど含まない二重ブランチアグリゲーション機構を設計する。
論文 参考訳(メタデータ) (2026-01-06T08:47:16Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - Does More Inference-Time Compute Really Help Robustness? [50.47666612618054]
小規模なオープンソースモデルは、推論時間スケーリングの恩恵を受けることができることを示す。
我々は、逆スケーリング法として、直感的に動機付けられ、実証的に検証された重要なセキュリティリスクを特定します。
私たちは、セキュリティに敏感で現実世界のアプリケーションに推論タイムのスケーリングを適用する前に、実践者にこれらの微妙なトレードオフを慎重に検討するよう促します。
論文 参考訳(メタデータ) (2025-07-21T18:08:38Z) - Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。
入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文 参考訳(メタデータ) (2025-06-17T01:19:28Z) - Beyond Exponential Decay: Rethinking Error Accumulation in Large Language Models [0.0]
エラーは均一に分散されていないが、重要な決定ジャンクションを表すスパースな"キートークン"に集中していることを示す。
本稿では,意味的に重要なトークンを選択的に保存することを目的とした次世代システムのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:57:31Z) - AttentionPredictor: Temporal Patterns Matter for KV Cache Compression [64.75459635661562]
我々は,KVキャッシュ圧縮とクリティカルトークン識別のための注意パターンを直接予測する,学習に基づく最初の手法であるAttentionPredictorを提案する。
AttentionPredictorは、注意スコアを正確に予測し、無視可能なメモリを消費する統一予測モデルを共有する。
注意情報の大半を保持することで、AttentionPredictorは、キャッシュオフロードシナリオで13$times$KVキャッシュ圧縮と5.6$times$スピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - How Smooth Is Attention? [26.322030088685928]
いくつかの実践シナリオにおいて、リプシッツ定数の自己注意について詳細に研究する。
任意のコンパクト集合における長さ$n$の入力に対して、自己注意のリプシッツ定数は定数係数まで$sqrtn$で有界であることを示す。
マスクされた自己注意のための平均フィールドフレームワークは、新しくて独立した関心事です。
論文 参考訳(メタデータ) (2023-12-22T16:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。