論文の概要: Rectifying Magnitude Neglect in Linear Attention
- arxiv url: http://arxiv.org/abs/2507.00698v2
- Date: Thu, 24 Jul 2025 04:37:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:41.91139
- Title: Rectifying Magnitude Neglect in Linear Attention
- Title(参考訳): リニアアテンションにおける補正マグニチュード無視
- Authors: Qihang Fan, Huaibo Huang, Yuang Ai, ran He,
- Abstract要約: リニアアテンションは、標準的なSoftmaxアテンションに比べて大幅にパフォーマンスが低下する。
我々は,線形注意の計算を改良し,クエリの規模を完全に組み込むMagnitude-Aware Linear Attention (MALA)を提案する。
- 参考スコア(独自算出の注目度): 57.097694292570885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the core operator of Transformers, Softmax Attention exhibits excellent global modeling capabilities. However, its quadratic complexity limits its applicability to vision tasks. In contrast, Linear Attention shares a similar formulation with Softmax Attention while achieving linear complexity, enabling efficient global information modeling. Nevertheless, Linear Attention suffers from a significant performance degradation compared to standard Softmax Attention. In this paper, we analyze the underlying causes of this issue based on the formulation of Linear Attention. We find that, unlike Softmax Attention, Linear Attention entirely disregards the magnitude information of the Query. This prevents the attention score distribution from dynamically adapting as the Query scales. As a result, despite its structural similarity to Softmax Attention, Linear Attention exhibits a significantly different attention score distribution. Based on this observation, we propose Magnitude-Aware Linear Attention (MALA), which modifies the computation of Linear Attention to fully incorporate the Query's magnitude. This adjustment allows MALA to generate an attention score distribution that closely resembles Softmax Attention while exhibiting a more well-balanced structure. We evaluate the effectiveness of MALA on multiple tasks, including image classification, object detection, instance segmentation, semantic segmentation, natural language processing, speech recognition, and image generation. Our MALA achieves strong results on all of these tasks. Code will be available at https://github.com/qhfan/MALA
- Abstract(参考訳): Transformersのコアオペレータとして、Softmax Attentionは優れたグローバルモデリング機能を示している。
しかし、その二次的な複雑さはビジョンタスクの適用性を制限している。
対照的にLinear Attentionは、線形複雑性を達成しつつ、Softmax Attentionと同様の定式化を共有し、効率的なグローバル情報モデリングを可能にしている。
それでも、Linear Attentionは、標準のSoftmax Attentionに比べて大幅にパフォーマンスが低下している。
本稿では,線形注意の定式化に基づいて,この問題の根本原因を解析する。
私たちは、Softmax Attentionとは異なり、Linear AttentionはQueryの桁違いな情報を完全に無視していることに気付きました。
これにより、クエリがスケールするにつれて、アテンションスコアの分布が動的に適応するのを防ぐ。
その結果、Softmax Attentionと構造的に類似しているにもかかわらず、Linear Attentionは注目点の分布が著しく異なることがわかった。
そこで本研究では,線形注意(Linear Attention)の計算を改良したMagnitude-Aware Linear Attention (MALA)を提案する。
この調整により、MALAはよりバランスの取れた構造を示しながら、ソフトマックス注意によく似た注意スコア分布を生成することができる。
画像分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーション,自然言語処理,音声認識,画像生成など,複数のタスクにおけるMALAの有効性を評価する。
当社のMALAは,これらすべてのタスクに対して強い成果を上げています。
コードはhttps://github.com/qhfan/MALAで入手できる。
関連論文リスト
- On the Expressiveness of Softmax Attention: A Recurrent Neural Network Perspective [3.1044138971639743]
ソフトマックス注意の主な欠点は、シーケンス長に関する二次記憶要件と計算複雑性である。
ソフトマックスの非線形性を置き換えることで、ソフトマックスの2次ボトルネックを回避するために、線形アテンションや同様の手法が導入された。
本研究は,線形アテンションがソフトマックスアテンションの繰り返し形式を導出することにより,ソフトマックスアテンションの近似であることを示す。
論文 参考訳(メタデータ) (2025-07-31T15:10:03Z) - SEMA: a Scalable and Efficient Mamba like Attention via Token Localization and Averaging [6.141765857284547]
一般的な枠組みの中で,バニラソフトマックスの注意と線形の注意の両方を定式化する。
一般化された注意が分散していること、すなわち、キーの数が無限大になる傾向があるため、クエリはすべてのキーに等しい重みを割り当てる。
注意力(SEMA)は線形注意を超越したスケーラブルで効果的な代替手段であることを示す。
論文 参考訳(メタデータ) (2025-06-10T00:03:19Z) - Breaking Complexity Barriers: High-Resolution Image Restoration with Rank Enhanced Linear Attention [54.42902794496325]
ソフトマックスアテンションの変種である線形アテンションは、グローバルコンテキストモデリングにおける約束を示す。
軽量な奥行き畳み込みを統合することで特徴表現を充実させる簡易かつ効果的な方法であるRランク拡張線形アテンション(RELA)を提案する。
本稿では,RELA をベースとした画像復元変換器 LAformer を提案する。
論文 参考訳(メタデータ) (2025-05-22T02:57:23Z) - Bridging the Divide: Reconsidering Softmax and Linear Attention [116.34723260730405]
線形注意の限界を理解し緩和する2つの重要な視点を提示する。
線形注意は単射ではなく、異なるクエリベクトルに同一の注意重みを割り当てる傾向があることを証明した。
第2に,線形の注意が不足するソフトマックスの注意を成功させるためには,効果的な局所モデリングが不可欠であることを確認した。
論文 参考訳(メタデータ) (2024-12-09T15:44:22Z) - Breaking the Low-Rank Dilemma of Linear Attention [61.55583836370135]
線形注意(linear attention)は、複雑性を線形レベルに還元することで、はるかに効率的なソリューションを提供する。
実験により, この性能低下は, 線形アテンションの特徴マップの低ランク性に起因することが示唆された。
我々は,線形複雑性と高効率を維持しつつ,Softmaxの注目性能に匹敵するランク拡張線形注意(RALA)を導入する。
論文 参考訳(メタデータ) (2024-11-12T08:30:59Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Linear Video Transformer with Feature Fixation [34.324346469406926]
ビジョントランスフォーマーは、ソフトマックスのアテンション機構によって引き起こされる二次的な複雑さに悩まされながら、ビデオ分類において印象的なパフォーマンスを達成した。
本稿では、線形注意を計算する前に、クエリとキーの特徴的重要性を再重み付けする機能固定モジュールを提案する。
我々は,3つの人気ビデオ分類ベンチマークを用いて,線形ビデオ変換器の最先端性能を実現する。
論文 参考訳(メタデータ) (2022-10-15T02:20:50Z) - cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。
近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。
本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文 参考訳(メタデータ) (2022-02-17T17:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。