論文の概要: Sliced ReLU attention: Quasi-linear contextual expressivity via sorting
- arxiv url: http://arxiv.org/abs/2512.11411v1
- Date: Fri, 12 Dec 2025 09:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.717951
- Title: Sliced ReLU attention: Quasi-linear contextual expressivity via sorting
- Title(参考訳): Sliced ReLU attention: Quasi-linear contextual expressivity by sorting
- Authors: Siwan Boufadène, François-Xavier Vialard,
- Abstract要約: 我々は、SoftmaxとReLUベースの代替品から構造的に逸脱する新しい注意機構であるスライスされたReLUアテンションを導入する。
この構成は、ソート手順によってO(n log(n) で計算できる微分可能な非対称核を生成する。
分割されたReLUアテンションは、非自明なシーケンス・ツー・シーケンス・アンタングリングタスクを実行する能力を保っていることを示す。
- 参考スコア(独自算出の注目度): 6.429235334672735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce sliced ReLU attention, a new attention mechanism that departs structurally from both softmax and ReLU-based alternatives. Instead of applying a nonlinearity to pairwise dot products, we operate on one-dimensional projections of key--query differences and leverage sorting to obtain quasi-linear complexity. This construction yields a differentiable, non-symmetric kernel that can be computed in O(n log(n)) through a sorting procedure, making it suitable for very long contexts. Beyond computational benefits, the model retains strong theoretical expressive power: we establish two in-context expressivity results, previously known for softmax attention, showing that sliced ReLU attention preserves the ability to perform nontrivial sequence-to-sequence disentangling tasks and satisfies a contextual universal approximation property. Finally, we illustrate the potential practical interest of this kernel in small-scale experiments.
- Abstract(参考訳): 我々は、SoftmaxとReLUベースの代替品から構造的に逸脱する新しい注意機構であるスライスされたReLUアテンションを導入する。
一対のドット積に非線形性を適用する代わりに、キー-クエリ差の1次元射影を演算し、ソートを利用して準線形複雑性を得る。
この構成により、O(n log(n)) でソート手順によって計算できる微分可能で非対称なカーネルが得られ、非常に長いコンテキストに適合する。
従来ソフトマックスアテンションで知られていた2つのコンテキスト内表現結果を確立し、ReLUアテンションのスライスにより、非自明なシーケンスからシーケンスへのアンタングリングタスクの実行能力を維持し、文脈的普遍的近似特性を満たすことを示す。
最後に,このカーネルの小型実験における実用性について述べる。
関連論文リスト
- Efficient Linear Attention for Multivariate Time Series Modeling via Entropy Equality [30.606567864965243]
本稿では,制約を克服するための新しい線形アテンション機構を提案する。
我々は, 線形複雑度のみを用いて, ドット積分布のエントロピーを計算するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-11-05T05:07:55Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Efficient Methods for Structured Nonconvex-Nonconcave Min-Max
Optimization [98.0595480384208]
定常点に収束する一般化外空間を提案する。
このアルゴリズムは一般の$p$ノルド空間だけでなく、一般の$p$次元ベクトル空間にも適用される。
論文 参考訳(メタデータ) (2020-10-31T21:35:42Z) - Dualize, Split, Randomize: Toward Fast Nonsmooth Optimization Algorithms [21.904012114713428]
第一のFが滑らかで第二のFが非滑らかで近似可能な3つの凸函数の和を考える。
このテンプレート問題には、画像処理や機械学習など、多くの応用がある。
この問題に対して PDDY と呼ぶ新しい原始双対アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-04-03T10:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。