論文の概要: SimA: Simple Softmax-free Attention for Vision Transformers
- arxiv url: http://arxiv.org/abs/2206.08898v2
- Date: Sat, 23 Mar 2024 06:43:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 06:12:57.489863
- Title: SimA: Simple Softmax-free Attention for Vision Transformers
- Title(参考訳): SimA:視覚変換器用ソフトマックスフリーアテンション
- Authors: Soroush Abbasi Koohpayegani, Hamed Pirsiavash,
- Abstract要約: 我々は、Softmaxレイヤの代わりに単純な$ell_$-normでクエリとキー行列を正規化する、SoftmaxフリーアテンションブロックSimAを導入する。
また,3種類のSOTA変圧器(DeiT,XCiT,CvT)に適用したSimAは,SoTAモデルと比較して,ソフトマックス層を必要とせずに精度が低いことを示す。
- 参考スコア(独自算出の注目度): 19.619745174034662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, vision transformers have become very popular. However, deploying them in many applications is computationally expensive partly due to the Softmax layer in the attention block. We introduce a simple but effective, Softmax-free attention block, SimA, which normalizes query and key matrices with simple $\ell_1$-norm instead of using Softmax layer. Then, the attention block in SimA is a simple multiplication of three matrices, so SimA can dynamically change the ordering of the computation at the test time to achieve linear computation on the number of tokens or the number of channels. We empirically show that SimA applied to three SOTA variations of transformers, DeiT, XCiT, and CvT, results in on-par accuracy compared to the SOTA models, without any need for Softmax layer. Interestingly, changing SimA from multi-head to single-head has only a small effect on the accuracy, which simplifies the attention block further. The code is available here: https://github.com/UCDvision/sima
- Abstract(参考訳): 近年、視覚変換器は非常に人気がある。
しかし、多くのアプリケーションにデプロイするのは、注意ブロックのSoftmax層のために計算コストがかかる。
我々は、Softmaxレイヤの代わりに単純な$\ell_1$-normでクエリとキー行列を正規化する、シンプルで効果的なSoftmaxフリーアテンションブロックSimAを導入する。
次に、SimAのアテンションブロックは3つの行列の単純な乗算であり、SimAはテスト時の計算順序を動的に変更し、トークン数やチャネル数に対する線形計算を実現する。
実験により,SimAが3種類のSOTA変圧器,DeiT,XCiT,CvTに適用されたことにより,SoTAモデルと比較して,ソフトマックス層を必要とせずに精度が低くなることを示した。
興味深いことに、SimAをマルチヘッドからシングルヘッドに変更することは、注意ブロックをさらに単純化する精度に小さな影響しか与えない。
コードはここにある。 https://github.com/UCDvision/sima
関連論文リスト
- Power-Softmax: Towards Secure LLM Inference over Encrypted Data [2.4576879793338913]
ホモモルフィック暗号化(HE)は暗号化形式を持つために暗号手法を必要とする。
以前のアプローチでは、10倍を超える大きな度合いを持つ事前訓練されたモデルを直接近似していた。
トレーニングのための安定なフォームを提供し、トレーニングと近似し易い、新しいタイプの自己意図(self-attention)を提案する。
論文 参考訳(メタデータ) (2024-10-12T09:32:42Z) - Revisiting the Architectures like Pointer Networks to Efficiently
Improve the Next Word Distribution, Summarization Factuality, and Beyond [37.96043934146189]
本稿では,ポインタネットワークを簡素化し,単語ごとのリランカを高速化することで,いくつかのソフトマックス代替案を提案する。
GPT-2では,提案手法はソフトマックスの混合よりも有意に効率的かつ効率的である。
T5-Smallに基づく最良の方法は、CNN/DMおよびXSUMデータセットにおいてファクトCCスコアを2ポイント改善し、ブックサム段落レベルのデータセットではMAUVEスコアを30%改善する。
論文 参考訳(メタデータ) (2023-05-20T21:52:24Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - Efficient Attention-free Video Shift Transformers [56.87581500474093]
本稿では,効率的な映像認識の問題に取り組む。
ビデオトランスは、最近、効率(トップ1精度対FLOP)のスペクトルを支配している。
我々はビデオ領域における定式化を拡張してビデオアフィンシフト変換器を構築する。
論文 参考訳(メタデータ) (2022-08-23T17:48:29Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Block-Recurrent Transformers [49.07682696216708]
本稿では,逐次的にトランス層を適用するBlock-Recurrent Transformerを提案する。
我々のリカレントセルはシングルトークンではなくトークンブロック上で動作し、アクセルハードウェアを効率的に活用するためにブロック内の並列計算を利用する。
論文 参考訳(メタデータ) (2022-03-11T23:44:33Z) - SOFT: Softmax-free Transformer with Linear Complexity [112.9754491864247]
視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。
線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。
これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。
ソフトマックスフリー変圧器(SOFT)を初めて提案する。
論文 参考訳(メタデータ) (2021-10-22T17:57:29Z) - Breaking the Softmax Bottleneck for Sequential Recommender Systems with
Dropout and Decoupling [0.0]
SBRSのSoftmaxボトルネックには、さらに多くの側面があることが示されています。
そこで本研究では,これらの問題を緩和するために,D&D(Dropout and Decoupling)というシンプルな手法を提案する。
本手法は,様々なSoftmaxベースのSBRSアルゴリズムの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-11T16:52:23Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。