論文の概要: Higher-order Linear Attention
- arxiv url: http://arxiv.org/abs/2510.27258v1
- Date: Fri, 31 Oct 2025 07:54:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.02809
- Title: Higher-order Linear Attention
- Title(参考訳): 高次線形注意
- Authors: Yifan Zhang, Zhen Qin, Quanquan Gu,
- Abstract要約: スケールされたドット積の注意の二次コストは、自己回帰言語モデルを長いコンテキストにスケールするための中心的な障害である。
本稿では,高次線形注意(Higher-order Linear Attention, HLA)を提案する。
- 参考スコア(独自算出の注目度): 59.92962330635185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quadratic cost of scaled dot-product attention is a central obstacle to scaling autoregressive language models to long contexts. Linear-time attention and State Space Models (SSMs) provide scalable alternatives but are typically restricted to first-order or kernel-based approximations, which can limit expressivity. We introduce Higher-order Linear Attention (HLA), a causal, streaming mechanism that realizes higher interactions via compact prefix sufficient statistics. In the second-order case, HLA maintains a constant-size state and computes per-token outputs in linear time without materializing any $n \times n$ matrices. We give closed-form streaming identities, a strictly causal masked variant using two additional summaries, and a chunk-parallel training scheme based on associative scans that reproduces the activations of a serial recurrence exactly. We further outline extensions to third and higher orders. Collectively, these results position HLA as a principled, scalable building block that combines attention-like, data-dependent mixing with the efficiency of modern recurrent architectures. Project Page: https://github.com/yifanzhang-pro/HLA.
- Abstract(参考訳): スケールド・ドット・プロダクティヴ・アテンションの二次コストは、自己回帰言語モデルを長いコンテキストにスケールするための中心的な障害である。
線形時間アテンションとステートスペースモデル(SSM)はスケーラブルな代替手段を提供するが、通常は1次またはカーネルベースの近似に制限されており、表現性を制限することができる。
本稿では,高次線形注意(Higher-order Linear Attention, HLA)を提案する。
2階の場合、HLAは一定サイズの状態を維持し、$n \times n$行列を具体化せずに、線形時間でトーケン毎の出力を計算する。
2つの追加サマリーを用いた厳密な因果マスク付き変種と、連続反復のアクティベーションを正確に再現する連想スキャンに基づくチャンク並列トレーニングスキームを提供する。
さらに、三階と高階への拡張を概説する。
まとめると、これらの結果はHLAを、注意のようなデータ依存の混合と現代的な再帰アーキテクチャの効率を結合した、原則化されたスケーラブルなビルディングブロックとして位置づけている。
プロジェクトページ: https://github.com/yifanzhang-pro/HLA
関連論文リスト
- LOTFormer: Doubly-Stochastic Linear Attention via Low-Rank Optimal Transport [21.50165411149415]
線形時間と二重確率を同時に行う原理的注意機構を提案する。
LotFormerはLong Range Arenaベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-09-27T18:11:09Z) - Log-Linear Attention [81.09631871212211]
本稿では,線形注意の効率とソフトマックス注意の表現性をバランスさせる注意機構である対数線形注意を開発する。
特定の成長関数を用いて、対数線形アテンションは、計算コストが列長で対数線形である類似のマトゥルリッチ並列形式を許容することを示す。
ログ線形アテンションは一般的なフレームワークであり、既存の線形アテンションのバリエーションの上に適用することができる。
論文 参考訳(メタデータ) (2025-06-05T08:44:51Z) - Unifying Autoregressive and Diffusion-Based Sequence Generation [3.1853022872760186]
拡散に基づくシーケンス生成モデルに対して,自己回帰型言語モデルで行を曖昧にする重要な拡張を提示する。
個別のトークン位置に異なるノイズスケジュールを割り当てるハイパースケジューリングを導入する。
第二に,吸収過程と一様過程の間に介在する2つのハイブリッドトークン単位のノイズ発生過程を提案し,過去の誤りを解消する。
論文 参考訳(メタデータ) (2025-04-08T20:32:10Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。