論文の概要: Accumulated Trivial Attention Matters in Vision Transformers on Small
Datasets
- arxiv url: http://arxiv.org/abs/2210.12333v1
- Date: Sat, 22 Oct 2022 02:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 17:10:06.624591
- Title: Accumulated Trivial Attention Matters in Vision Transformers on Small
Datasets
- Title(参考訳): 小型データセットの視覚トランスフォーマーにおける注意事項の蓄積
- Authors: Xiangyu Chen, Qinghao Hu, Kaidong Li, Cuncong Zhong and Guanghui Wang
- Abstract要約: 我々は、畳み込みニューラルネットワークと比較して、グローバルな注意力の計算が別の不利をもたらすことを示す。
そこで我々は,注意重みを,自明かつ非自明なものに閾値で分割し,その上で,累積トライビタルアテンション(SATA)重みを抑えることを提案する。
本手法は視覚変換器の精度を最大2.3%向上させる。
- 参考スコア(独自算出の注目度): 25.041489334839117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers has demonstrated competitive performance on computer
vision tasks benefiting from their ability to capture long-range dependencies
with multi-head self-attention modules and multi-layer perceptron. However,
calculating global attention brings another disadvantage compared with
convolutional neural networks, i.e. requiring much more data and computations
to converge, which makes it difficult to generalize well on small datasets,
which is common in practical applications. Previous works are either focusing
on transferring knowledge from large datasets or adjusting the structure for
small datasets. After carefully examining the self-attention modules, we
discover that the number of trivial attention weights is far greater than the
important ones and the accumulated trivial weights are dominating the attention
in Vision Transformers due to their large quantity, which is not handled by the
attention itself. This will cover useful non-trivial attention and harm the
performance when trivial attention includes more noise, e.g. in shallow layers
for some backbones. To solve this issue, we proposed to divide attention
weights into trivial and non-trivial ones by thresholds, then Suppressing
Accumulated Trivial Attention (SATA) weights by proposed Trivial WeIghts
Suppression Transformation (TWIST) to reduce attention noise. Extensive
experiments on CIFAR-100 and Tiny-ImageNet datasets show that our suppressing
method boosts the accuracy of Vision Transformers by up to 2.3%. Code is
available at https://github.com/xiangyu8/SATA.
- Abstract(参考訳): Vision Transformersは、マルチヘッド・セルフアテンションモジュールとマルチ層パーセプトロンで長距離依存関係をキャプチャする能力の恩恵を受け、コンピュータビジョンタスクにおける競合性能を実証している。
しかし、グローバルな注意力を計算することは、畳み込みニューラルネットワークに比べて別の欠点をもたらす。つまり、より多くのデータと計算を収束させる必要があるため、実用上一般的な小さなデータセットをうまく一般化することは困難である。
これまでの作業では、大きなデータセットからの知識の転送や、小さなデータセットの構造の調整に重点を置いていた。
自己注意モジュールを慎重に検討した結果、重要モジュールよりも自明な注意重みの数が遥かに多く、蓄積された自明な重みが、注意自体が扱わない大量の視覚変換器の注意を支配していることがわかった。
これは有用な非自明な注意をカバーし、いくつかのバックボーンの浅い層のように、自明な注意がより多くのノイズを含む場合のパフォーマンスを害する。
そこで本研究では,注意重みをしきい値により自明かつ非自明な重みに分割し,蓄積された自明な注意重みを自明な重み抑制変換(twist)により抑制し,注意雑音を低減することを提案した。
cifar-100およびtiny-imagenetデータセットの広範な実験により、この抑制手法は視覚トランスフォーマーの精度を最大2.3%向上させることが示された。
コードはhttps://github.com/xiangyu8/SATAで入手できる。
関連論文リスト
- You Only Need Less Attention at Each Stage in Vision Transformers [19.660385306028047]
ViT(Vision Transformer)は、自己認識モジュールを通じて画像のグローバルな情報をキャプチャする。
本稿では,各段階の注意操作のみを演算するLose-Attention Vision Transformer (LaViT)を提案する。
我々のアーキテクチャは、分類、検出、セグメンテーションを含む様々な視覚タスクにおいて、例外的な性能を示す。
論文 参考訳(メタデータ) (2024-06-01T12:49:16Z) - Attention Deficit is Ordered! Fooling Deformable Vision Transformers
with Collaborative Adversarial Patches [3.4673556247932225]
変形可能な視覚変換器は、注意モデリングの複雑さを著しく低減する。
最近の研究は、従来の視覚変換器に対する敵攻撃を実証している。
我々は,対象のパッチに注意を向けるようにソースパッチが操作する新たなコラボレーティブアタックを開発する。
論文 参考訳(メタデータ) (2023-11-21T17:55:46Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - Explicitly Increasing Input Information Density for Vision Transformers
on Small Datasets [26.257612622358614]
ビジョントランスフォーマーはビジョンタスクにおけるビジョントランスフォーマー(ViT)の実装が成功して以来、近年多くの注目を集めている。
本稿では,周波数領域における入力情報密度を明示的に向上することを提案する。
5つの小規模データセットに対して提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2022-10-25T20:24:53Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - Vision Transformer with Deformable Attention [29.935891419574602]
大規模な、時としてグローバルな受信フィールドは、CNNモデルよりも高い表現力を持つTransformerモデルを提供する。
本稿では,キーと値ペアの位置をデータ依存的に選択する,変形可能な新しい自己保持モジュールを提案する。
画像分類と重み付き予測の両方に変形性を考慮した一般的なバックボーンモデルであるDeformable Attention Transformerを提案する。
論文 参考訳(メタデータ) (2022-01-03T08:29:01Z) - Patch Slimming for Efficient Vision Transformers [107.21146699082819]
与えられたネットワーク上で冗長な計算を行うことにより,視覚変換器の効率性について検討する。
我々は、トップダウンパラダイムで無駄なパッチを捨てる、新しいパッチスリム化アプローチを提案する。
ベンチマークによる実験結果から,提案手法は視覚変換器の計算コストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-05T09:46:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。