論文の概要: The Linear Attention Resurrection in Vision Transformer
- arxiv url: http://arxiv.org/abs/2501.16182v1
- Date: Mon, 27 Jan 2025 16:29:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:03.075233
- Title: The Linear Attention Resurrection in Vision Transformer
- Title(参考訳): ビジョントランスにおけるリニアアテンション復活
- Authors: Chuanyang Zheng,
- Abstract要約: ビジョントランスフォーマー(ViT)は最近、コンピュータビジョンを嵐によって捉えた。
ViTsの基盤となるソフトマックスの注目は、時間とメモリの2次的な複雑さを伴い、高解像度画像へのViTsの適用を妨げる。
本稿では,この制限に対処する線形アテンション手法を提案する。
- 参考スコア(独自算出の注目度): 0.6798775532273751
- License:
- Abstract: Vision Transformers (ViTs) have recently taken computer vision by storm. However, the softmax attention underlying ViTs comes with a quadratic complexity in time and memory, hindering the application of ViTs to high-resolution images. We revisit the attention design and propose a linear attention method to address the limitation, which doesn't sacrifice ViT's core advantage of capturing global representation like existing methods (e.g. local window attention of Swin). We further investigate the key difference between linear attention and softmax attention. Our empirical results suggest that linear attention lacks a fundamental property of concentrating the distribution of the attention matrix. Inspired by this observation, we introduce a local concentration module to enhance linear attention. By incorporating enhanced linear global attention and local window attention, we propose a new ViT architecture, dubbed L$^2$ViT. Notably, L$^2$ViT can effectively capture both global interactions and local representations while enjoying linear computational complexity. Extensive experiments demonstrate the strong performance of L$^2$ViT. On image classification, L$^2$ViT achieves 84.4% Top-1 accuracy on ImageNet-1K without any extra training data or label. By further pre-training on ImageNet-22k, it attains 87.0% when fine-tuned with resolution 384$^2$. For downstream tasks, L$^2$ViT delivers favorable performance as a backbone on object detection as well as semantic segmentation.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は最近、コンピュータビジョンを嵐によって捉えた。
しかし、ViTsの裏にあるソフトマックスの注意は、時間とメモリの2次的な複雑さを伴い、高解像度画像へのViTsの適用を妨げる。
我々は、注意設計を再考し、制限に対処するための線形注意法を提案する。これは、既存の方法(例えば、Swinのローカルウィンドウアテンション)のように、グローバルな表現をキャプチャするViTの中核的な利点を犠牲にしない。
さらに,線形注意とソフトマックス注意の主な相違について検討する。
実験の結果、線形注意は注意行列の分布を集中させる基本的な性質を欠いていることが示唆された。
この観測にインスパイアされた我々は、線形注意を高めるための局所集中モジュールを導入する。
拡張線形グローバルアテンションと局所窓アテンションを組み込むことで、L$^2$ViTと呼ばれる新しいViTアーキテクチャを提案する。
特に、L$^2$ViTは線形計算複雑性を楽しみながら、大域的相互作用と局所表現の両方を効果的に捉えることができる。
大規模な実験はL$^2$ViTの強い性能を示す。
画像分類において、L$^2$ViTは、追加のトレーニングデータやラベルなしで、ImageNet-1K上で84.4%のTop-1精度を達成する。
ImageNet-22kのさらなる事前トレーニングにより、解像度384$^2$で微調整すると87.0%に達する。
下流タスクでは、L$^2$ViTはオブジェクト検出とセマンティックセグメンテーションのバックボーンとして好ましいパフォーマンスを提供する。
関連論文リスト
- Bridging the Divide: Reconsidering Softmax and Linear Attention [116.34723260730405]
線形注意の限界を理解し緩和する2つの重要な視点を提示する。
線形注意は単射ではなく、異なるクエリベクトルに同一の注意重みを割り当てる傾向があることを証明した。
第2に,線形の注意が不足するソフトマックスの注意を成功させるためには,効果的な局所モデリングが不可欠であることを確認した。
論文 参考訳(メタデータ) (2024-12-09T15:44:22Z) - Breaking the Low-Rank Dilemma of Linear Attention [61.55583836370135]
線形注意(linear attention)は、複雑性を線形レベルに還元することで、はるかに効率的なソリューションを提供する。
実験により, この性能低下は, 線形アテンションの特徴マップの低ランク性に起因することが示唆された。
我々は,線形複雑性と高効率を維持しつつ,Softmaxの注目性能に匹敵するランク拡張線形注意(RALA)を導入する。
論文 参考訳(メタデータ) (2024-11-12T08:30:59Z) - ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention [33.00435765051738]
我々は、Gated Linear Attention (GLA) を視覚に導入し、その優れたハードウェア認識と効率を活用している。
提案するモデルであるViGは、ImageNetおよび下流タスクにおける精度、パラメータ、FLOPの良好なトレードオフを提供する。
ViG-Tは5.2$times$より少ないFLOPを使用し、90%のGPUメモリを節約し、4.8$times$高速に動作し、DeiT-Tよりも20.7%高いトップ1精度を達成する。
論文 参考訳(メタデータ) (2024-05-28T17:59:21Z) - RMT: Retentive Networks Meet Vision Transformers [59.827563438653975]
近年,ビジョントランスフォーマー (ViT) がコンピュータビジョンコミュニティで注目を集めている。
自己注意は空間的先行性に欠け、二次的な計算複雑性を持つ。
一般的な目的のために,空間的に明瞭なバックボーンを持つ強力な視覚バックボーンであるRTTを提案する。
論文 参考訳(メタデータ) (2023-09-20T00:57:48Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Castling-ViT: Compressing Self-Attention via Switching Towards Linear-Angular Attention at Vision Transformer Inference [33.69340426607746]
視覚変換器(ViT)は優れた性能を示しているが、畳み込みニューラルネットワーク(CNN)と比較して計算コストは高い。
既存の効率的なViTは局所的な注意(例えば、スウィン)または線形の注意(例えば、Performer)を採用する。
線形角の注意とマスキングソフトマックスに基づく二次の注意の両方を用いてViTを訓練するCastling-ViTというフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-18T22:49:04Z) - ViTALiTy: Unifying Low-rank and Sparse Approximation for Vision
Transformer Acceleration with a Linear Taylor Attention [23.874485033096917]
Vision Transformer (ViT)は、様々なコンピュータビジョンアプリケーションのための畳み込みニューラルネットワークの競合代替として登場した。
そこで本研究では,VitaliTy という,VT の推論効率向上のためのハードウェア設計フレームワークを提案する。
ViTALiTyは、ViTにおける注目の低ランクとスパースの両方のコンポーネントを統合する。
論文 参考訳(メタデータ) (2022-11-09T18:58:21Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。