論文の概要: PSLT: A Light-weight Vision Transformer with Ladder Self-Attention and
Progressive Shift
- arxiv url: http://arxiv.org/abs/2304.03481v1
- Date: Fri, 7 Apr 2023 05:21:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 12:51:45.626350
- Title: PSLT: A Light-weight Vision Transformer with Ladder Self-Attention and
Progressive Shift
- Title(参考訳): PSLT:ラダー自己注意と進行性シフトを備えた軽量ビジョントランス
- Authors: Gaojie Wu, Wei-Shi Zheng, Yutong Lu, Qi Tian
- Abstract要約: Vision Transformer (ViT) は、長距離依存をモデル化できるため、様々な視覚的タスクに対して大きな可能性を示している。
本稿では,複数の枝を持つラダー自己保持ブロックと,軽量トランスフォーマーバックボーンを開発するためのプログレッシブシフト機構を提案する。
- 参考スコア(独自算出の注目度): 139.17852337764586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer (ViT) has shown great potential for various visual tasks
due to its ability to model long-range dependency. However, ViT requires a
large amount of computing resource to compute the global self-attention. In
this work, we propose a ladder self-attention block with multiple branches and
a progressive shift mechanism to develop a light-weight transformer backbone
that requires less computing resources (e.g. a relatively small number of
parameters and FLOPs), termed Progressive Shift Ladder Transformer (PSLT).
First, the ladder self-attention block reduces the computational cost by
modelling local self-attention in each branch. In the meanwhile, the
progressive shift mechanism is proposed to enlarge the receptive field in the
ladder self-attention block by modelling diverse local self-attention for each
branch and interacting among these branches. Second, the input feature of the
ladder self-attention block is split equally along the channel dimension for
each branch, which considerably reduces the computational cost in the ladder
self-attention block (with nearly 1/3 the amount of parameters and FLOPs), and
the outputs of these branches are then collaborated by a pixel-adaptive fusion.
Therefore, the ladder self-attention block with a relatively small number of
parameters and FLOPs is capable of modelling long-range interactions. Based on
the ladder self-attention block, PSLT performs well on several vision tasks,
including image classification, objection detection and person
re-identification. On the ImageNet-1k dataset, PSLT achieves a top-1 accuracy
of 79.9% with 9.2M parameters and 1.9G FLOPs, which is comparable to several
existing models with more than 20M parameters and 4G FLOPs. Code is available
at https://isee-ai.cn/wugaojie/PSLT.html.
- Abstract(参考訳): Vision Transformer (ViT) は、長距離依存をモデル化できるため、様々な視覚的タスクに対して大きな可能性を示している。
しかし、ViTはグローバルな自己注意を計算するために大量の計算資源を必要とする。
本研究では,複数の分岐を持つラジッド自己アテンションブロックと,より少ない演算資源(比較的少数のパラメータとFLOP)を必要とする軽量なトランスフォーマーバックボーンを開発するためのプログレッシブシフト機構を提案し,これをプログレッシブシフトラダートランス(PSLT)と呼ぶ。
第一に、ラダー自己アテンションブロックは各ブランチにおける局所自己アテンションをモデル化することで計算コストを削減する。
一方,各枝に対する多様な局所的自己意識をモデル化し,各枝間の相互作用をモデル化することにより,ラダー自己意識ブロックの受容野を拡大するプログレッシブシフト機構を提案する。
第2に、はしご自着ブロックの入力特性を各ブランチのチャネル次元に沿って均等に分割することにより、はしご自着ブロックの計算コストを大幅に削減し(パラメータとフロップの約1/3)、これらのブランチの出力をピクセル適応融合により協調させる。
したがって、比較的少数のパラメータとFLOPを持つはしご自己注意ブロックは、長距離相互作用をモデル化することができる。
はしごの自己注意ブロックに基づいて、PSLTは画像分類、オブジェクト検出、人物の再識別など、いくつかの視覚的タスクでうまく機能する。
ImageNet-1kデータセットでは、PSLTは9.2Mパラメータと1.9GのFLOPを持つトップ1の精度を79.9%達成している。
コードはhttps://isee-ai.cn/wugaojie/pslt.htmlで入手できる。
関連論文リスト
- SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。
チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。
密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - DAE-Former: Dual Attention-guided Efficient Transformer for Medical
Image Segmentation [3.9548535445908928]
DAE-Formerは,自己認識機構を効率的に設計することで,新たな視点の提供を目指す新しい手法である。
本手法は, プレトレーニング重量を必要とせずに, 多臓器心病変と皮膚病変のセグメンテーションデータセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-12-27T14:39:39Z) - Lite Vision Transformer with Enhanced Self-Attention [39.32480787105232]
2つの拡張自己注意機構を持つ新しい軽量ビジョントランスネットワークLVTを提案する。
低レベルの機能については、CSA(Convolutional Self-Attention)を紹介します。
高次機能のために、再帰的アトラス自己注意(RASA)を提案する。
論文 参考訳(メタデータ) (2021-12-20T19:11:53Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - ULSAM: Ultra-Lightweight Subspace Attention Module for Compact
Convolutional Neural Networks [4.143032261649983]
Ultra-Lightweight Subspace Attention Mechanism(ULSAM)は、エンドツーエンドのトレーニングが可能で、コンパクト畳み込みニューラルネットワーク(CNN)のプラグアンドプレイモジュールとしてデプロイできる。
FLOPとパラメータカウントの両方において$approx$13%と$approx$25%の削減を実現し、ImageNet-1Kおよびきめ細かい画像分類データセット上で、0.27%以上の精度と1%以上の精度で、MobileNet-V2のFLOPとパラメータカウントを削減した。
論文 参考訳(メタデータ) (2020-06-26T17:05:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。