論文の概要: Breaking the Low-Rank Dilemma of Linear Attention
- arxiv url: http://arxiv.org/abs/2411.07635v3
- Date: Sun, 17 Nov 2024 12:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:33:36.954419
- Title: Breaking the Low-Rank Dilemma of Linear Attention
- Title(参考訳): 線状注意の低域ジレンマを破る
- Authors: Qihang Fan, Huaibo Huang, Ran He,
- Abstract要約: 線形注意(linear attention)は、複雑性を線形レベルに還元することで、はるかに効率的なソリューションを提供する。
実験により, この性能低下は, 線形アテンションの特徴マップの低ランク性に起因することが示唆された。
我々は,線形複雑性と高効率を維持しつつ,Softmaxの注目性能に匹敵するランク拡張線形注意(RALA)を導入する。
- 参考スコア(独自算出の注目度): 61.55583836370135
- License:
- Abstract: The Softmax attention mechanism in Transformer models is notoriously computationally expensive, particularly due to its quadratic complexity, posing significant challenges in vision applications. In contrast, linear attention provides a far more efficient solution by reducing the complexity to linear levels. However, compared to Softmax attention, linear attention often experiences significant performance degradation. Our experiments indicate that this performance drop is due to the low-rank nature of linear attention's feature map, which hinders its ability to adequately model complex spatial information. In this paper, to break the low-rank dilemma of linear attention, we conduct rank analysis from two perspectives: the KV buffer and the output features. Consequently, we introduce Rank-Augmented Linear Attention (RALA), which rivals the performance of Softmax attention while maintaining linear complexity and high efficiency. Based on RALA, we construct the Rank-Augmented Vision Linear Transformer (RAVLT). Extensive experiments demonstrate that RAVLT achieves excellent performance across various vision tasks. Specifically, without using any additional labels, data, or supervision during training, RAVLT achieves an 84.4% Top-1 accuracy on ImageNet-1k with only 26M parameters and 4.6G FLOPs. This result significantly surpasses previous linear attention mechanisms, fully illustrating the potential of RALA. Code will be available at https://github.com/qhfan/RALA.
- Abstract(参考訳): TransformerモデルにおけるSoftmaxのアテンションメカニズムは、特に2次複雑さのために計算コストが高く、視覚応用において大きな課題を招いている。
対照的に、線形注意は複雑性を線形レベルに還元することで、はるかに効率的な解を提供する。
しかし、Softmaxの注目に比べれば、線形の注意は大きなパフォーマンス低下を経験することが多い。
実験により, この性能低下は, 複雑な空間情報を適切にモデル化する能力を妨げる線形アテンションの特徴マップの低ランク性に起因することが示唆された。
本稿では,線形注意の低ランクジレンマを分解するために,KVバッファと出力特性の2点からランク解析を行う。
その結果、線形複雑性と高効率を維持しつつ、Softmaxの注目性能に匹敵するランク強化線形注意(RALA)を導入した。
本稿では、ALAに基づいて、RAVLT(Rang-Augmented Vision Linear Transformer)を構築する。
広範囲な実験により、RAVLTは様々な視覚タスクにおいて優れた性能を発揮することが示された。
具体的には、トレーニング中に追加のラベル、データ、または監督を使わずに、RAVLTはImageNet-1kの84.4%のTop-1精度を達成し、パラメータは26Mパラメータと4.6G FLOPsのみである。
この結果は従来の線形アテンション機構を大きく超え、ALAの可能性を完全に示している。
コードはhttps://github.com/qhfan/RALA.comで入手できる。
関連論文リスト
- Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - The Hedgehog & the Porcupine: Expressive Linear Attentions with Softmax
Mimicry [24.198536617002667]
線形の注意はトランスフォーマーの効率を改善する可能性を示し、注意の2次複雑さを線形のシーケンス長に減らした。
線形複雑性を保ちながらソフトマックスアテンションのスパイク特性とモノトニック特性を保持する学習可能な線形アテンションであるHedgehogを提案する。
論文 参考訳(メタデータ) (2024-02-06T19:31:26Z) - Gated Linear Attention Transformers with Hardware-Efficient Training [60.670102007737476]
本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。
次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。
変圧器の標準アテンション層に代えて使用すると、結果として生じるゲート状リニアアテンショントランスが競合的に動作することが分かる。
論文 参考訳(メタデータ) (2023-12-11T18:51:59Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - The Devil in Linear Transformer [42.232886799710215]
線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。
通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。
本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
論文 参考訳(メタデータ) (2022-10-19T07:15:35Z) - Linear Video Transformer with Feature Fixation [34.324346469406926]
ビジョントランスフォーマーは、ソフトマックスのアテンション機構によって引き起こされる二次的な複雑さに悩まされながら、ビデオ分類において印象的なパフォーマンスを達成した。
本稿では、線形注意を計算する前に、クエリとキーの特徴的重要性を再重み付けする機能固定モジュールを提案する。
我々は,3つの人気ビデオ分類ベンチマークを用いて,線形ビデオ変換器の最先端性能を実現する。
論文 参考訳(メタデータ) (2022-10-15T02:20:50Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。
近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。
本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文 参考訳(メタデータ) (2022-02-17T17:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。