論文の概要: NaLaFormer: Norm-Aware Linear Attention for Transformer Models
- arxiv url: http://arxiv.org/abs/2506.21137v1
- Date: Thu, 26 Jun 2025 10:47:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.050728
- Title: NaLaFormer: Norm-Aware Linear Attention for Transformer Models
- Title(参考訳): NaLaFormer: トランスフォーマーモデルに対するノーム対応リニアアテンション
- Authors: Weikang Meng, Yadan Luo, Liangyu Huo, Yaowei Wang, Xin Li, Zheng Zhang,
- Abstract要約: そこで本研究では,ノルム・アウェア・リニア・アテンション(Norm-Aware Linear Attention)機構を提案する。
我々は、NaLaFormerが視覚および言語タスクのパフォーマンスを改善し、表現性と効率の両方を最大4.2%向上させることを実証する広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 39.97155378043193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear attention has emerged as a viable alternative to softmax attention by reducing complexity from quadratic to linear in sequence length. To preserve two fundamental properties of softmax, non-negativity and entropy reduction, current works employ various linearly separatable kernel functions with $L1$ normalization instead of softmax operator. However, query norms are neglected by the normalization operation in linear attention, such degradation heavily leads to an entropy gap. Meanwhile, existing works inhibit negative values of query and key vectors resulting in a missing inner-product interactions after being mapped. To address these dual challenges, we propose a novel Norm-Aware Linear Attention mechanism serving to restore norm-guided dynamic spikiness and recover kernel-perturbed norm distributions. Specifically, we first decouple query and key matrices into two components: norm and direction, to achieve norm-aware spikiness control and norm consistency, respectively. We mathematically reveal that the extent of entropy reduction varies with the query norm in softmax normalization, motivating a query-norm aware kernel function for dynamic control over entropy reduction. Furthermore, to ensure norm consistency and enforce non-negativity constraints, we employ a norm-preserving mapping to project all elements of the angular matrix into positive values, leveraging cosine similarity to inhibit dimensions with opposite directions. We conduct extensive experiments demonstrating that the NaLaFormer improves performance on vision and language tasks, enhancing both expressiveness and efficiency by up to 4.2\%.
- Abstract(参考訳): リニアアテンションは、2次から線形のシーケンス長の複雑さを減らし、ソフトマックスアテンションに代わる有効な代替手段として現れてきた。
ソフトマックスの2つの基本的な性質、非負性およびエントロピー還元を維持するために、現在の研究は、ソフトマックス作用素の代わりに$L1$正規化を持つ様々な線形分離可能なカーネル関数を用いている。
しかし、クエリノルムは線形注意の正規化操作によって無視されるため、そのような劣化はエントロピーギャップを著しく引き起こす。
一方、既存の研究では、クエリとキーベクトルの負の値が抑制されており、マッピング後の内積相互作用が欠落している。
これら2つの課題に対処するために,ノルム・アウェアな線形注意機構を提案し,ノルム誘導された動的スパイキネスを復元し,カーネルに摂動されたノルム分布を復元する。
具体的には、クエリとキー行列をそれぞれ標準と方向の2つのコンポーネントに分離し、標準を意識したスパイキネス制御と標準整合性を実現する。
我々は,エントロピー低減の程度が,ソフトマックス正規化におけるクエリノルムによって異なることを数学的に明らかにし,エントロピー低減を動的に制御するためのクエリノルム対応カーネル関数を動機付けている。
さらに、標準整合性を確保し、非負性制約を強制するために、正の値に角行列のすべての要素を投影するノルム保存写像を用い、コサイン類似性を利用して反対方向の次元を阻害する。
我々は、NaLaFormerが視覚および言語タスクのパフォーマンスを改善し、表現性と効率を最大4.2\%向上させることを実証する広範囲な実験を行った。
関連論文リスト
- PolaFormer: Polarity-aware Linear Attention for Vision Transformers [16.35834984488344]
線形アテンションはソフトマックスベースのアテンションに代わる有望な代替手段として浮上している。
同一符号と反対符号の問合せキーの相互作用を明示的にモデル化する極性対応線形アテンション機構を提案する。
単純さと各次元の異なる寄与を認識するために、我々は再スケーリングのために学習可能なパワー関数を用いる。
論文 参考訳(メタデータ) (2025-01-25T03:46:35Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Penalising the biases in norm regularisation enforces sparsity [24.43739371803548]
この研究は、関数を表すのに必要なパラメータのノルムが、その第二微分の総変分によって与えられることを示し、$sqrt1+x2$ factorで重み付けされる。
特に、この重み付け係数はバイアス項のノルムが正規化されないときに消失する。
論文 参考訳(メタデータ) (2023-03-02T15:33:18Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - Multi-Objective Matrix Normalization for Fine-grained Visual Recognition [153.49014114484424]
双線形プールは細粒度視覚認識(FGVC)において大きな成功を収める
近年,行列パワー正規化は双線形特徴量において2次情報を安定化させることができることが示されている。
両線形表現を同時に正規化できる効率的な多目的行列正規化法(MOMN)を提案する。
論文 参考訳(メタデータ) (2020-03-30T08:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。