論文の概要: Exact Linear Attention
- arxiv url: http://arxiv.org/abs/2605.18848v2
- Date: Wed, 20 May 2026 08:24:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.32812
- Title: Exact Linear Attention
- Title(参考訳): 厳密な線形注意
- Authors: Weinuo Ou,
- Abstract要約: Exact Linear Attention (ELA) はカーネル関数の正確な分解特性を利用してトランスフォーマー注意のための線形計算複雑性を実現する。
ELAは最大で6倍高速な復号化とKVキャッシュメモリ使用率の75%削減を実現している。
我々は、線形アテンション原理を視覚モデルに拡張し、最大4.3倍のGPU推論速度と7.9倍のパラメータ削減を競合検出精度で達成するYOLO-LATを得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Exact Linear Attention (ELA), a mechanism that achieves linear computational complexity for Transformer attention by exploiting the exact decomposition property of kernel functions, thereby eliminating approximation error. We identify and address two key limitations of prior linear attention -- gradient explosion and token attention dilution -- by imposing kernel constraints that ensure non-negativity, discriminability, and geometric interpretability. Several kernel functions are proposed, including the Hadamard Exp Kernel, Summation Squared Euclidean Distance Kernel, and Subtraction Squared Euclidean Distance Kernel, each tailored for specific attention behaviors. Beyond the core attention formulation, the paper presents three engineering innovations: (1) a Hyper-Link structure that replaces traditional residual connections to mitigate gradient degradation; (2) a Memory Lobe module based on bidirectional linear attention, which captures "transformation flow" across layers to implement qualitative memory and an implicit reinforcement learning paradigm; and (3) a routing-score-based bias mechanism for Mixture-of-Experts (MoE) to improve interpretability and semantic alignment. Experimental results demonstrate that ELA achieves up to 6x faster decoding speed and 75% reduction in KV cache memory usage compared to full attention, while maintaining comparable or superior training performance. The proposed memory module accelerates convergence and enhances generalization. Furthermore, we extend the linear attention principle to vision models, yielding YOLO-LAT, which attains up to 4.3x GPU inference speedup and 7.9x parameter reduction with competitive detection accuracy. These results underline the broad applicability of exact linear attention for scaling Transformer models to ultra-long sequences and efficient visual tasks.
- Abstract(参考訳): 本稿では,カーネル関数の正確な分解特性を利用して,線形計算複雑性を実現する機構であるExact Linear Attention (ELA)を提案する。
我々は、非負性性、識別可能性、幾何学的解釈可能性を保証するカーネル制約を課すことにより、事前の線形注意(勾配爆発とトークン注意の希釈)の2つの重要な制限を特定し、対処する。
Hadamard Exp Kernel、Summation Squared Euclidean Distance Kernel、Subtraction Squared Euclidean Distance Kernelなど、いくつかのカーネル関数が提案されている。
コアアテンションの定式化以外にも,(1)従来の残差接続を置き換えてグラデーションを緩和するハイパーリンク構造,(2)定性的メモリと暗黙的強化学習パラダイムを実装するレイヤ間の「変換フロー」をキャプチャする双方向線形アテンションに基づくメモリローブモジュール,(3)Mixture-of-Experts(MoE)のためのルーティングスコアベースのバイアス機構,の3つの技術革新が紹介されている。
実験結果から,ELAは最大で6倍高速な復号化とKVキャッシュメモリ使用率の75%削減を実現し,同等あるいは優れたトレーニング性能を維持した。
提案したメモリモジュールは収束を加速し、一般化を促進する。
さらに、線形アテンションの原理を視覚モデルに拡張し、最大4.3倍のGPU推論速度と7.9倍のパラメータ削減を競合検出精度で達成するYOLO-LATを得る。
これらの結果は、トランスフォーマーモデルを超長いシーケンスと効率的な視覚タスクに拡張するための、正確な線形注意の幅広い適用性を示している。
関連論文リスト
- Accelerating Regularized Attention Kernel Regression for Spectrum Cartography [1.9651461643699661]
本稿では,学習に基づく注意カーネル回帰(LAKER)アルゴリズムを提案する。
鍵となる考え方は、アテンションカーネルシステムの逆スペクトル構造をキャプチャするデータ依存プリコンディショナーを学習することである。
実験により、LAKERは最大3桁の条件数を大幅に削減し、ベースラインに比べて20倍以上の収束を加速し、高い復元精度を維持することが示された。
論文 参考訳(メタデータ) (2026-04-28T02:27:40Z) - Rethinking Vector Field Learning for Generative Segmentation [50.08025820235397]
生成的セグメンテーションのためのモデリング拡散モデルが注目されている。
ベクトル場学習の観点から拡散セグメンテーションを再考する。
本稿では,学習した消滅速度場を距離認識補正項で拡張するベクトル場再構成手法を提案する。
この補正は、誘引的相互作用と反発的相互作用の両方を導入し、元の拡散訓練フレームワークを保ちながら、セントロイド付近の勾配等級を増大させる。
論文 参考訳(メタデータ) (2026-03-19T17:58:19Z) - Influence Malleability in Linearized Attention: Dual Implications of Non-Convergent NTK Dynamics [0.0]
線形化された注意はその無限幅のNTK限界に収束しないことを示す。
また、注意力と脆弱性は、カーネル体制からの離脱に共通点があることも示している。
論文 参考訳(メタデータ) (2026-03-13T15:33:34Z) - Sparse Attention as Compact Kernel Regression [20.026224027434974]
カーネル理論によるスパースアテンション機構の理解が現在欠落している。
スパースアテンションとコンパクト(有界サポート)カーネルの正式な対応を確立する。
カーネルレグレッションベースの変種であるメモリモザイクによる実験は、カーネルベースのスパースアテンションが競合性能を達成することを示している。
論文 参考訳(メタデータ) (2026-01-30T09:45:35Z) - A Representer Theorem for Hawkes Processes via Penalized Least Squares Minimization [31.876688992403647]
代表者定理(英: representer theorem)は、カーネルヒルベルト空間を再現する潜在関数を推定することを目的とした、カーネル法の基礎となる定理である。
変換されたカーネルの族は、同時積分方程式の系によって定義される。
注目すべきは、双対係数はすべて解析的にユニタリに固定され、双対係数を得るためにコストのかかる最適化問題を解く必要がなくなることである。
論文 参考訳(メタデータ) (2025-10-10T02:00:56Z) - Generalization Bound of Gradient Flow through Training Trajectory and Data-dependent Kernel [55.82768375605861]
我々は、カーネル法における古典的ラデマッハ複雑性と整合する勾配流の一般化を確立する。
NTKのような静的カーネルとは異なり、LPKはトレーニング軌跡全体をキャプチャし、データと最適化の両方に適応する。
論文 参考訳(メタデータ) (2025-06-12T23:17:09Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Linear Self-Attention Approximation via Trainable Feedforward Kernel [77.34726150561087]
高速な計算を追求する中で、効率的なトランスフォーマーは印象的な様々なアプローチを実証している。
我々は,トランスフォーマーアーキテクチャの自己保持機構を近似するために,トレーニング可能なカーネルメソッドのアイデアを拡張することを目指している。
論文 参考訳(メタデータ) (2022-11-08T08:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。