論文の概要: Neural Attention Search Linear: Towards Adaptive Token-Level Hybrid Attention Models
- arxiv url: http://arxiv.org/abs/2602.03681v1
- Date: Tue, 03 Feb 2026 16:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.558642
- Title: Neural Attention Search Linear: Towards Adaptive Token-Level Hybrid Attention Models
- Title(参考訳): ニューラルアテンションサーチリニア:適応的トーケンレベルハイブリッドアテンションモデルに向けて
- Authors: Difan Deng, Andreas Bentzen Winje, Lukas Fehring, Marius Lindauer,
- Abstract要約: 異なるトークンに対して同一レイヤ内での線形アテンションとソフトマックスアテンションの両方を適用可能なフレームワークを提案する。
NAtS-Lは、トークンが線形アテンションモデル(短期的な影響しか持たないトークン)で処理できるかどうかを自動的に決定する。
トークン間の最適Gated DeltaNetとソフトマックスアテンションの組み合わせを探索することにより、NAtS-Lは強力で効率的なトークンレベルのハイブリッドアーキテクチャを提供することを示す。
- 参考スコア(独自算出の注目度): 7.961563754693873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quadratic computational complexity of softmax transformers has become a bottleneck in long-context scenarios. In contrast, linear attention model families provide a promising direction towards a more efficient sequential model. These linear attention models compress past KV values into a single hidden state, thereby efficiently reducing complexity during both training and inference. However, their expressivity remains limited by the size of their hidden state. Previous work proposed interleaving softmax and linear attention layers to reduce computational complexity while preserving expressivity. Nevertheless, the efficiency of these models remains bottlenecked by their softmax attention layers. In this paper, we propose Neural Attention Search Linear (NAtS-L), a framework that applies both linear attention and softmax attention operations within the same layer on different tokens. NAtS-L automatically determines whether a token can be handled by a linear attention model, i.e., tokens that have only short-term impact and can be encoded into fixed-size hidden states, or require softmax attention, i.e., tokens that contain information related to long-term retrieval and need to be preserved for future queries. By searching for optimal Gated DeltaNet and softmax attention combinations across tokens, we show that NAtS-L provides a strong yet efficient token-level hybrid architecture.
- Abstract(参考訳): ソフトマックス変圧器の二次計算複雑性は、長期コンテキストシナリオにおいてボトルネックとなっている。
対照的に、線形アテンションモデルファミリはより効率的なシーケンシャルモデルに向けて有望な方向を提供する。
これらの線形アテンションモデルは、過去のKV値を単一の隠れ状態に圧縮し、トレーニングと推論の間の複雑さを効率的に低減する。
しかし、その表現力は隠された状態の大きさによって制限されている。
従来の研究は、表現性を維持しながら計算複雑性を低減するため、ソフトマックス層と線形アテンション層をインターリーブすることを提案した。
それでも、これらのモデルの効率性は、ソフトマックスの注意層によってボトルネックになっている。
本稿では,異なるトークン上の同一層内における線形注意操作とソフトマックス注意操作の両方を適用するフレームワークであるNeural Attention Search Linear (NAtS-L)を提案する。
NAtS-Lは、トークンが線形アテンションモデル、すなわち短期的な影響しか持たず、固定サイズの隠蔽状態に符号化できるトークン、または、長期検索に関連する情報を含み、将来のクエリのために保存する必要があるトークンを自動で決定する。
トークン間の最適Gated DeltaNetとソフトマックスアテンションの組み合わせを探索することにより、NAtS-Lは強力で効率的なトークンレベルのハイブリッドアーキテクチャを提供することを示す。
関連論文リスト
- SoLA-Vision: Fine-grained Layer-wise Linear Softmax Hybrid Attention [50.99430451151184]
線形注意はコストをO(N)に還元するが、圧縮された状態表現はモデリング能力と精度を損なう。
本稿では,視覚表現学習における線形およびソフトマックスの注意を対比する分析的研究について述べる。
フレキシブルな層状ハイブリッドアテンションバックボーンであるSoLA-Visionを提案する。
論文 参考訳(メタデータ) (2026-01-16T10:26:53Z) - Trainable Log-linear Sparse Attention for Efficient Diffusion Transformers [36.26426380985327]
Diffusion Transformers (DiTs) は、視覚生成における技術の状態を設定しているが、その二次的な自己注意コストは、長いトークンシーケンスへのスケーリングを制限している。
最近のTop-Kスパースアテンションアプローチは、トークンをブロックワイズ表現に圧縮することで、DiTの計算を減らす。
極長トークン列に対するトレーニング可能なスパースアテンション機構であるログ線形スパースアテンション(LLSA)を導入する。
論文 参考訳(メタデータ) (2025-12-18T14:53:12Z) - Long-Context Generalization with Sparse Attention [21.400056571592277]
トランスフォーマーベースのアーキテクチャは、伝統的に注意重みを計算するためにソフトマックスを使用している。
シーケンス長が増加するにつれて、非情報的トークンは注意確率の質量を蓄積し、分散と表現的崩壊をもたらす。
我々は、$alpha$-entmaxを使って動的にスパースな注意機構がこれらの問題を回避できることを示し、これは、無関係トークンに正確なゼロを割り当てる能力のためである。
論文 参考訳(メタデータ) (2025-06-19T22:43:25Z) - Log-Linear Attention [81.09631871212211]
本稿では,線形注意の効率とソフトマックス注意の表現性をバランスさせる注意機構である対数線形注意を開発する。
特定の成長関数を用いて、対数線形アテンションは、計算コストが列長で対数線形である類似のマトゥルリッチ並列形式を許容することを示す。
ログ線形アテンションは一般的なフレームワークであり、既存の線形アテンションのバリエーションの上に適用することができる。
論文 参考訳(メタデータ) (2025-06-05T08:44:51Z) - Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。
本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。
我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文 参考訳(メタデータ) (2025-02-26T05:31:44Z) - Bridging the Divide: Reconsidering Softmax and Linear Attention [116.34723260730405]
線形注意の限界を理解し緩和する2つの重要な視点を提示する。
線形注意は単射ではなく、異なるクエリベクトルに同一の注意重みを割り当てる傾向があることを証明した。
第2に,線形の注意が不足するソフトマックスの注意を成功させるためには,効果的な局所モデリングが不可欠であることを確認した。
論文 参考訳(メタデータ) (2024-12-09T15:44:22Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。