論文の概要: WildCat: Near-Linear Attention in Theory and Practice
- arxiv url: http://arxiv.org/abs/2602.10056v1
- Date: Tue, 10 Feb 2026 18:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.744127
- Title: WildCat: Near-Linear Attention in Theory and Practice
- Title(参考訳): WildCat: 理論と実践におけるほぼ線形の注意
- Authors: Tobias Schröder, Lester Mackey,
- Abstract要約: ニューラルネットワークの注意機構を圧縮するための高精度で低コストなアプローチであるWildCatを紹介する。
我々は、高速だがスペクトル精度の低いサブサンプリングアルゴリズム(ランダムにピボットされたチョレスキー)を用いてコアセットを選択し、再構成誤差を最小限に抑えるために最適な要素を重み付けする。
注目すべきは、有界な入力が与えられたとき、WildCat は超多項式 $O(n-sqrtlog(log(n))$エラー崩壊と正確な注意を近似し、ニア線形 $O(n1+o(1))$時間で走る。
- 参考スコア(独自算出の注目度): 18.480164477333226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce WildCat, a high-accuracy, low-cost approach to compressing the attention mechanism in neural networks. While attention is a staple of modern network architectures, it is also notoriously expensive to deploy due to resource requirements that scale quadratically with the input sequence length $n$. WildCat avoids these quadratic costs by only attending over a small weighted coreset. Crucially, we select the coreset using a fast but spectrally-accurate subsampling algorithm -- randomly pivoted Cholesky -- and weight the elements optimally to minimise reconstruction error. Remarkably, given bounded inputs, WildCat approximates exact attention with super-polynomial $O(n^{-\sqrt{\log(\log(n))}})$ error decay while running in near-linear $O(n^{1+o(1)})$ time. In contrast, prior practical approximations either lack error guarantees or require quadratic runtime to guarantee such high fidelity. We couple this advance with a GPU-optimized PyTorch implementation and a suite of benchmark experiments demonstrating the benefits of WildCat for image generation, image classification, and language model KV cache compression.
- Abstract(参考訳): ニューラルネットワークの注意機構を圧縮するための高精度で低コストなアプローチであるWildCatを紹介する。
注目は現代のネットワークアーキテクチャの基盤となっているが、入力シーケンスの長さが$n$で2倍にスケールするリソース要求のため、デプロイするコストも高くつく。
WildCatは、小さな重み付きコアセットにのみ参加することで、これらの二次コストを回避する。
重要なことは、高速だがスペクトル精度の低いサブサンプリングアルゴリズム(ランダムにピボットされたチョレスキー)を用いてコアセットを選択し、再構成エラーを最小限に抑えるために最適な要素を重み付けする。
注目すべきは、有界な入力が与えられたとき、WildCat は極小多項式 $O(n^{-\sqrt{\log(\log(n))}})$エラー減衰をほぼ線形$O(n^{1+o(1)})$時間で実行しながら正確に注意を向ける。
対照的に、事前の実用的な近似にはエラー保証がないか、そのような高い忠実性を保証するために二次ランタイムが必要である。
我々は、GPUに最適化されたPyTorch実装と、画像生成、画像分類、言語モデルKVキャッシュ圧縮におけるWildCatの利点を示す一連のベンチマーク実験で、この進歩に対処した。
関連論文リスト
- Distribution-Aware Tensor Decomposition for Compression of Convolutional Neural Networks [4.322339935902436]
テンソル化と低ランク表現による圧縮に焦点を当てる。
関数空間の誤差を測定するために、データインフォームドノルムを使用します。
従来の圧縮パイプラインとは異なり、データインフォームドアプローチは微調整なしで競争精度を達成できることが多い。
論文 参考訳(メタデータ) (2025-11-06T16:15:15Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - Optimizing Tensor Computation Graphs with Equality Saturation and Monte Carlo Tree Search [0.0]
モンテカルロ木探索を用いて優れた表現を構築するテンソルグラフ書き換え手法を提案する。
提案手法は,既存の手法と比較して,ニューラルネットワークの推論速度を最大11%向上させる。
論文 参考訳(メタデータ) (2024-10-07T22:22:02Z) - How Sparse Attention Approximates Exact Attention? Your Attention is Naturally $n^C$-Sparse [9.552839922307587]
スパース注意(英: Sparse Attention)とは、標準的な注意計算と準四分法的な複雑性を近似する手法である。
KVキャッシュのプルーニング、スパースベースの高速注意、スパーストランスフォーマーといったテクニックのバリエーションは、効率的なLLM(Large Language Models)デプロイメントに広く利用されている。
論文 参考訳(メタデータ) (2024-04-03T12:37:34Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z) - Smooth-Reduce: Leveraging Patches for Improved Certified Robustness [100.28947222215463]
本研究では,Smooth-Reduce の学習自由な修正スムース化手法を提案する。
提案アルゴリズムは,入力画像から抽出した重なり合うパッチを分類し,予測ロジットを集約して,入力周辺の半径が大きいことを証明する。
我々は,このような証明書の理論的保証を提供し,他のランダムな平滑化手法に対する顕著な改善を実証的に示す。
論文 参考訳(メタデータ) (2022-05-12T15:26:20Z) - PDPGD: Primal-Dual Proximal Gradient Descent Adversarial Attack [92.94132883915876]
最先端のディープニューラルネットワークは、小さな入力摂動に敏感である。
対向騒音に対するロバスト性を改善するための多くの防御法が提案されている。
敵の強靭さを評価することは 極めて困難であることが分かりました
論文 参考訳(メタデータ) (2021-06-03T01:45:48Z) - Fast and Accurate Neural CRF Constituency Parsing [16.90190521285297]
この研究は、高速で正確なCRF行列計算を示す。
我々は、GPU上の大きなテンソル演算による損失に対する内部アルゴリズムをバッチ化し、効率的なバックプロパゲーションによる計算の外部アルゴリズムを避ける。
PTB, CTB5.1, CTB7の2段CRFは, w/o と w/BERT の両設定において,新しい最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2020-08-09T14:38:48Z) - Pixel-in-Pixel Net: Towards Efficient Facial Landmark Detection in the
Wild [104.61677518999976]
顔のランドマークを検出するために,Pixel-in-Pixel Net(PIPNet)を提案する。
提案モデルは,熱マップ回帰に基づく新しい検出ヘッドを備える。
PIPNetのクロスドメイン一般化能力をさらに向上するため,カリキュラムによる自己学習を提案する。
論文 参考訳(メタデータ) (2020-03-08T12:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。