論文の概要: ViT-LSLA: Vision Transformer with Light Self-Limited-Attention
- arxiv url: http://arxiv.org/abs/2210.17115v1
- Date: Mon, 31 Oct 2022 07:46:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 17:43:14.577294
- Title: ViT-LSLA: Vision Transformer with Light Self-Limited-Attention
- Title(参考訳): ViT-LSLA:光自己制限型視覚変換器
- Authors: Zhenzhe Hechen, Wei Huang, Yixin Zhao
- Abstract要約: 本稿では,計算コストとパラメータ数の削減を目的とした軽量自己拘束機構(LSA)と,性能向上のための自己拘束機構(SLA)からなる軽量自己拘束機構(LSLA)を提案する。
ViT-LSLAはIP102では71.6%、Mini-ImageNetでは87.2%である。
- 参考スコア(独自算出の注目度): 4.903718320156974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have demonstrated a competitive performance across a wide range
of vision tasks, while it is very expensive to compute the global
self-attention. Many methods limit the range of attention within a local window
to reduce computation complexity. However, their approaches cannot save the
number of parameters; meanwhile, the self-attention and inner position bias
(inside the softmax function) cause each query to focus on similar and close
patches. Consequently, this paper presents a light self-limited-attention
(LSLA) consisting of a light self-attention mechanism (LSA) to save the
computation cost and the number of parameters, and a self-limited-attention
mechanism (SLA) to improve the performance. Firstly, the LSA replaces the K
(Key) and V (Value) of self-attention with the X(origin input). Applying it in
vision Transformers which have encoder architecture and self-attention
mechanism, can simplify the computation. Secondly, the SLA has a positional
information module and a limited-attention module. The former contains a
dynamic scale and an inner position bias to adjust the distribution of the
self-attention scores and enhance the positional information. The latter uses
an outer position bias after the softmax function to limit some large values of
attention weights. Finally, a hierarchical Vision Transformer with Light
self-Limited-attention (ViT-LSLA) is presented. The experiments show that
ViT-LSLA achieves 71.6% top-1 accuracy on IP102 (2.4% absolute improvement of
Swin-T); 87.2% top-1 accuracy on Mini-ImageNet (3.7% absolute improvement of
Swin-T). Furthermore, it greatly reduces FLOPs (3.5GFLOPs vs. 4.5GFLOPs of
Swin-T) and parameters (18.9M vs. 27.6M of Swin-T).
- Abstract(参考訳): トランスフォーマーは幅広いビジョンタスクで競合性能を示してきたが、グローバル・セルフ・アテンションを計算するのは非常に高価である。
多くのメソッドは、計算の複雑さを減らすためにローカルウィンドウ内の注意の範囲を制限する。
しかし、それらのアプローチはパラメータの数を節約できない。一方、自己アテンションと内位置バイアス(ソフトマックス関数の内側)は、各クエリが類似したクローズパッチにフォーカスする。
そこで本稿では,計算コストとパラメータ数を削減する軽量自己保持機構 (LSA) と,性能向上のための自己拘束機構 (SLA) からなる軽量自己保持機構 (LSLA) を提案する。
まず LSA は、自己注意の K (Key) と V (Value) を X (origin input) に置き換える。
エンコーダアーキテクチャと自己アテンション機構を持つトランスフォーマーを視覚に応用すれば、計算が簡単になる。
第2に、SLAは位置情報モジュールと限定アテンションモジュールを有する。
前者は、自己注意スコアの分布を調整し、位置情報を強化するための動的スケールと内位置バイアスを含む。
後者はソフトマックス関数の後の位置バイアスを利用して、注意重みの大きい値を制限する。
最後に、光自己拘束型階層型視覚変換器(ViT-LSLA)について述べる。
実験の結果、IP102ではVT-LSLAが71.6%(Swin-Tでは2.4%)、Mini-ImageNetでは87.2%(Swin-Tでは3.7%)であることがわかった。
さらに、FLOP(3.5GFLOPs vs. 4.5GFLOPs of Swin-T)とパラメータ(18.9M vs. 27.6M of Swin-T)を大幅に削減する。
関連論文リスト
- LASER: Attention with Exponential Transformation [20.1832156343096]
注意機構のソフトマックス操作により逆伝播する勾配を解析し、これらの勾配が小さい場合が多いことを観察する。
我々は、より大きな勾配信号を受け入れることを解析的に示すLASERと呼ばれる新しい注意機構を導入する。
既存のアテンション実装に小さな変更を加えることで、LASERアテンションを実装できることを示す。
論文 参考訳(メタデータ) (2024-11-05T20:18:28Z) - StableMask: Refining Causal Masking in Decoder-only Transformer [22.75632485195928]
因果マスキングと相対位置符号化(RPE)を備えたデコーダのみのトランスフォーマーアーキテクチャは、言語モデリングにおいて事実上の選択肢となっている。
しかし、現在の埋め込みが十分な自己完結した情報を持っている場合でも、すべての注意スコアはゼロではなく1まで総和でなければならない。
因果マスクを精細化することで両方の制約に対処するパラメータフリー手法であるStableMaskを提案する。
論文 参考訳(メタデータ) (2024-02-07T12:01:02Z) - SeTformer is What You Need for Vision and Language [26.036537788653373]
自己最適化輸送(SeT)は、より良い性能と計算効率を実現するための新しいトランスフォーマーである。
SeTformerは、ImageNet-1Kで84.7%、86.2%という印象的なトップ1アキュラシーを達成した。
SeTformerはGLUEベンチマークで言語モデリングの最先端の結果も達成している。
論文 参考訳(メタデータ) (2024-01-07T16:52:49Z) - PSLT: A Light-weight Vision Transformer with Ladder Self-Attention and
Progressive Shift [139.17852337764586]
Vision Transformer (ViT) は、長距離依存をモデル化できるため、様々な視覚的タスクに対して大きな可能性を示している。
本稿では,複数の枝を持つラダー自己保持ブロックと,軽量トランスフォーマーバックボーンを開発するためのプログレッシブシフト機構を提案する。
論文 参考訳(メタデータ) (2023-04-07T05:21:37Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Pale Transformer: A General Vision Transformer Backbone with Pale-Shaped
Attention [28.44439386445018]
そこで我々は,淡い形の領域内で自己注意を行うPale-Shaped Self-Attentionを提案する。
グローバルな自己アテンションと比較すると、PS-Attentionは計算とメモリコストを大幅に削減できる。
モデルサイズ22M, 48M, 85Mで, 83.4%, 84.3%, 84.9%のTop-1精度を実現する。
論文 参考訳(メタデータ) (2021-12-28T05:37:24Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。