論文の概要: Sparse Attention as Compact Kernel Regression
- arxiv url: http://arxiv.org/abs/2601.22766v2
- Date: Wed, 04 Feb 2026 12:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.613888
- Title: Sparse Attention as Compact Kernel Regression
- Title(参考訳): コンパクトカーネル回帰としてのスパース注意
- Authors: Saul Santos, Nuno Gonçalves, Daniel C. McNamee, Marcos Treviso, André F. T Martins,
- Abstract要約: カーネル理論によるスパースアテンション機構の理解が現在欠落している。
スパースアテンションとコンパクト(有界サポート)カーネルの正式な対応を確立する。
カーネルレグレッションベースの変種であるメモリモザイクによる実験は、カーネルベースのスパースアテンションが競合性能を達成することを示している。
- 参考スコア(独自算出の注目度): 20.026224027434974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has revealed a link between self-attention mechanisms in transformers and test-time kernel regression via the Nadaraya-Watson estimator, with standard softmax attention corresponding to a Gaussian kernel. However, a kernel-theoretic understanding of sparse attention mechanisms is currently missing. In this paper, we establish a formal correspondence between sparse attention and compact (bounded support) kernels. We show that normalized ReLU and sparsemax attention arise from Epanechnikov kernel regression under fixed and adaptive normalizations, respectively. More generally, we demonstrate that widely used kernels in nonparametric density estimation -- including Epanechnikov, biweight, and triweight -- correspond to $α$-entmax attention with $α= 1 + \frac{1}{n}$ for $n \in \mathbb{N}$, while the softmax/Gaussian relationship emerges in the limit $n \to \infty$. This unified perspective explains how sparsity naturally emerges from kernel design and provides principled alternatives to heuristic top-$k$ attention and other associative memory mechanisms. Experiments with a kernel-regression-based variant of transformers -- Memory Mosaics -- show that kernel-based sparse attention achieves competitive performance on language modeling, in-context learning, and length generalization tasks, offering a principled framework for designing attention mechanisms.
- Abstract(参考訳): 最近の研究は、変圧器の自己注意機構とナダラヤ・ワトソン推定器によるテスト時間カーネル回帰の関係を明らかにし、ガウス核に対応する標準ソフトマックスの注意を向けた。
しかし、カーネル理論によるスパースアテンション機構の理解が現在欠落している。
本稿では,スパースアテンションとコンパクト(有界サポート)カーネル間の形式対応を確立する。
正規化されたReLUとスパースマックスの注意は,それぞれ固定正規化および適応正規化の下でのエパネチニコフ核の回帰から生じることを示す。
より一般に、非パラメトリック密度推定において広く用いられる核(エパネチニコフ、双重み、三重みを含む)が$α$-entmax attention with $α= 1 + \frac{1}{n}$ for $n \in \mathbb{N}$, and softmax/Gaussian relationship is appears in the limit $n \to \infty$.
この統一された視点は、カーネル設計からいかに疎結合が自然に出現するかを説明し、ヒューリスティックなトップ・ドル・アテンションや他の連想記憶機構に代わる原則的な代替手段を提供する。
メモリモザイク(Memory Mosaics)と呼ばれるカーネルレグレッションベースの変圧器を用いた実験は、カーネルベースのスパースアテンションが言語モデリング、コンテキスト内学習、長さ一般化タスクにおける競合的なパフォーマンスを実現し、注意機構を設計するための原則化されたフレームワークを提供することを示している。
関連論文リスト
- Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。
入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文 参考訳(メタデータ) (2025-06-17T01:19:28Z) - Predicting Open-Hole Laminates Failure Using Support Vector Machines With Classical and Quantum Kernels [2.0039767863372506]
本研究では, 面内載荷時の開放孔複合板の最終的な破壊包絡を学習するために, 代理モデルの訓練方法を示す。
カーネル-ターゲットアライメント最適化により、すべてのカーネルのフリーパラメータを最適化し、安全なロード状態と障害発生ロード状態の分離を最良とする。
論文 参考訳(メタデータ) (2024-05-05T11:48:50Z) - Generalization in Kernel Regression Under Realistic Assumptions [41.345620270267446]
共通カーネルや任意の正規化、ノイズ、任意の入力次元、サンプル数に対して厳密な境界を提供する。
以上の結果から,高入力次元における過剰適合,固定次元におけるほぼ誘電過剰適合,正規化回帰に対する明示的な収束率が示唆された。
副産物として、カーネルシステムで訓練されたニューラルネットワークの時間依存境界を得る。
論文 参考訳(メタデータ) (2023-12-26T10:55:20Z) - Kernel Subspace and Feature Extraction [7.424262881242935]
特徴部分空間の観点から,機械学習におけるカーネル手法について検討する。
我々は、ヒルシュフェルト-ゲベライン-レーニの最大相関関数からカーネルを構築し、最大相関カーネルを作成し、その情報理論の最適性を示す。
論文 参考訳(メタデータ) (2023-01-04T02:46:11Z) - Meta-Learning Hypothesis Spaces for Sequential Decision-making [79.73213540203389]
オフラインデータ(Meta-KeL)からカーネルをメタ学習することを提案する。
穏やかな条件下では、推定されたRKHSが有効な信頼セットを得られることを保証します。
また,ベイズ最適化におけるアプローチの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2022-02-01T17:46:51Z) - Kernel Identification Through Transformers [54.3795894579111]
カーネル選択はガウス過程(GP)モデルの性能決定において中心的な役割を果たす。
この研究は、高次元GP回帰モデルのためのカスタムカーネル関数を構築するという課題に対処する。
KITT: Kernel Identification through Transformersを提案する。
論文 参考訳(メタデータ) (2021-06-15T14:32:38Z) - Scalable Variational Gaussian Processes via Harmonic Kernel
Decomposition [54.07797071198249]
汎用性を維持しつつ高い忠実度近似を提供する,スケーラブルな変分ガウス過程近似を導入する。
様々な回帰問題や分類問題において,本手法は変換やリフレクションなどの入力空間対称性を活用できることを実証する。
提案手法は, 純粋なGPモデルのうち, CIFAR-10 の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-10T18:17:57Z) - Flow-based Kernel Prior with Application to Blind Super-Resolution [143.21527713002354]
カーネル推定は一般にブラインド画像超解像(SR)の鍵となる問題の一つである
本稿では,カーネルモデリングのための正規化フローベースカーネルプリレント(fkp)を提案する。
合成および実世界の画像の実験により、提案したFKPがカーネル推定精度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2021-03-29T22:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。