論文の概要: SLAY: Geometry-Aware Spherical Linearized Attention with Yat-Kernel
- arxiv url: http://arxiv.org/abs/2602.04915v1
- Date: Wed, 04 Feb 2026 05:06:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.536798
- Title: SLAY: Geometry-Aware Spherical Linearized Attention with Yat-Kernel
- Title(参考訳): SLAY:Yat-Kernelを用いた幾何学的球面線状注意
- Authors: Jose Miguel Luna, Taha Bouhsine, Krzysztof Choromanski,
- Abstract要約: 本稿では,最近導入されたE-Productの緩和的かつ計算学的に効率的な定式化に基づいて,線形時間アテンション機構の新たなクラスを提案する。
提案手法は,Yat Kernels (SLAY) を用いた球面線形化注意(Spherical Linearized Attention with Yat Kernels)であり,クエリとキーを単位球に制約することにより,注意が角アライメントにのみ依存するようにする。
- 参考スコア(独自算出の注目度): 4.761601231258512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new class of linear-time attention mechanisms based on a relaxed and computationally efficient formulation of the recently introduced E-Product, often referred to as the Yat-kernel (Bouhsine, 2025). The resulting interactions are geometry-aware and inspired by inverse-square interactions in physics. Our method, Spherical Linearized Attention with Yat Kernels (SLAY), constrains queries and keys to the unit sphere so that attention depends only on angular alignment. Using Bernstein's theorem, we express the spherical Yat-kernel as a nonnegative mixture of polynomial-exponential product kernels and derive a strictly positive random-feature approximation enabling linear-time O(L) attention. We establish positive definiteness and boundedness on the sphere and show that the estimator yields well-defined, nonnegative attention scores. Empirically, SLAY achieves performance that is nearly indistinguishable from standard softmax attention while retaining linear time and memory scaling, and consistently outperforms prior linear-time attention mechanisms such as Performers and Cosformers. To the best of our knowledge, SLAY represents the closest linear-time approximation to softmax attention reported to date, enabling scalable Transformers without the typical performance trade-offs of attention linearization.
- Abstract(参考訳): 本稿では,最近導入されたE-Product(Yat-kernel, Bouhsine, 2025)の緩和的かつ効率的な定式化に基づく線形時間アテンション機構の新たなクラスを提案する。
結果として生じる相互作用は幾何学的に認識され、物理学における逆二乗相互作用にインスパイアされる。
提案手法は,Yat Kernels (SLAY) を用いた球面線形化注意(Spherical Linearized Attention with Yat Kernels)であり,クエリとキーを単位球に制約することにより,注意が角アライメントにのみ依存するようにする。
ベルンシュタインの定理を用いて、球面ヤト核を多項式-指数積核の非負混合として表現し、線形時間 O(L) の注意を可能にする厳密な正のランダム-函数近似を導出する。
球面上の正の定性および有界性を確立し、推定器が明確に定義された非負の注意スコアを得ることを示す。
SLAYは、線形時間とメモリのスケーリングを維持しながら、標準的なソフトマックスのアテンションとほとんど区別できないパフォーマンスを実現し、PerformerやCosformerのような以前の線形時間アテンションメカニズムを一貫して上回っている。
我々の知る限り、SLAYは、これまで報告されたソフトマックスアテンションに最も近い線形時間近似を示し、アテンションリニア化の典型的なパフォーマンストレードオフなしにスケーラブルなトランスフォーマーを可能にする。
関連論文リスト
- MirrorLA: Reflecting Feature Map for Vision Linear Attention [49.41670925034762]
リニアアテンションはトランスフォーマーの2次から線形への計算複雑性を著しく低下させるが、パフォーマンスにおけるソフトマックスに基づくアテンションの遅れは一貫して遅れる。
我々は、受動トランケーションをアクティブなリオリエンテーションに置き換える幾何学的枠組みであるMirrorLAを提案する。
MirrorLAは標準的なベンチマークで最先端のパフォーマンスを実現し、表現の忠実さを損なうことなく厳密な線形効率を実現できることを示した。
論文 参考訳(メタデータ) (2026-02-04T09:14:09Z) - Error-Free Linear Attention is a Free Lunch: Exact Solution from Continuous-Time Dynamics [41.656176667732616]
数値的に安定な完全並列性とデルタ則の一般化された定式化であるEFLA(Error-Free Linear Attention)を導入する。
我々の研究は、高忠実でスケーラブルな線形時間アテンションモデルを構築するための新しい理論基盤を提供する。
論文 参考訳(メタデータ) (2025-12-14T08:51:02Z) - GraphTARIF: Linear Graph Transformer with Augmented Rank and Improved Focus [32.63390871016499]
本稿では,注目度と注目度を両立させる新しい枠組みを提案する。
具体的には、値行列にゲート付き局所グラフネットワークブランチをアタッチすることで、線形注意力を高める。
また、注意点に学習可能なログパワー機能を導入し、エントロピーを減らし焦点を鋭くする。
論文 参考訳(メタデータ) (2025-10-12T14:22:32Z) - Degrees of Freedom for Linear Attention: Distilling Softmax Attention with Optimal Feature Efficiency [37.02934235737917]
統計的自由度の概念を用いて線形注意における特徴次元を決定するための原理的手法を提案する。
本手法は, 計算予算の固定化により, 誤差が小さくなることを示す。
我々の発見はまた、注意機構の複雑さが層間でどのように進化するかについての洞察を与える。
論文 参考訳(メタデータ) (2025-07-04T06:59:17Z) - Log-Linear Attention [81.09631871212211]
本稿では,線形注意の効率とソフトマックス注意の表現性をバランスさせる注意機構である対数線形注意を開発する。
特定の成長関数を用いて、対数線形アテンションは、計算コストが列長で対数線形である類似のマトゥルリッチ並列形式を許容することを示す。
ログ線形アテンションは一般的なフレームワークであり、既存の線形アテンションのバリエーションの上に適用することができる。
論文 参考訳(メタデータ) (2025-06-05T08:44:51Z) - Convex Analysis of the Mean Field Langevin Dynamics [49.66486092259375]
平均場ランゲヴィン力学の収束速度解析について述べる。
ダイナミックスに付随する$p_q$により、凸最適化において古典的な結果と平行な収束理論を開発できる。
論文 参考訳(メタデータ) (2022-01-25T17:13:56Z) - Pushing the Envelope of Rotation Averaging for Visual SLAM [69.7375052440794]
視覚SLAMシステムのための新しい最適化バックボーンを提案する。
従来の単分子SLAMシステムの精度, 効率, 堅牢性を向上させるために, 平均化を活用している。
我々のアプローチは、公開ベンチマークの最先端技術に対して、同等の精度で最大10倍高速に表示することができる。
論文 参考訳(メタデータ) (2020-11-02T18:02:26Z) - Continuous-time quantum walks in the presence of a quadratic
perturbation [55.41644538483948]
連続時間量子ウォークの特性を、$mathcalH=L + lambda L2$という形のハミルトン群で解決する。
低/高接続性および/または対称性を持つパラダイムモデルであるため、サイクル、完全、およびスターグラフを考える。
論文 参考訳(メタデータ) (2020-05-13T14:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。