論文の概要: SATA: Spatial Autocorrelation Token Analysis for Enhancing the Robustness of Vision Transformers
- arxiv url: http://arxiv.org/abs/2409.19850v1
- Date: Mon, 30 Sep 2024 01:18:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:06:12.497469
- Title: SATA: Spatial Autocorrelation Token Analysis for Enhancing the Robustness of Vision Transformers
- Title(参考訳): SATA:視覚変換器のロバスト性向上のための空間自己相関トークン解析
- Authors: Nick Nikzad, Yi Liao, Yongsheng Gao, Jun Zhou,
- Abstract要約: 視覚変換器(ViT)は、様々な視覚認識タスクにおいて、常に顕著な性能を示してきた。
空間自己相関トークン分析(SATA)と呼ばれる新しい手法を導入し,ViTのロバスト性を高める。
SATAは、リトレーニングや微調整を必要とせずに、既存のViTベースラインにシームレスに統合する。
- 参考スコア(独自算出の注目度): 20.045277771042787
- License:
- Abstract: Over the past few years, vision transformers (ViTs) have consistently demonstrated remarkable performance across various visual recognition tasks. However, attempts to enhance their robustness have yielded limited success, mainly focusing on different training strategies, input patch augmentation, or network structural enhancements. These approaches often involve extensive training and fine-tuning, which are time-consuming and resource-intensive. To tackle these obstacles, we introduce a novel approach named Spatial Autocorrelation Token Analysis (SATA). By harnessing spatial relationships between token features, SATA enhances both the representational capacity and robustness of ViT models. This is achieved through the analysis and grouping of tokens according to their spatial autocorrelation scores prior to their input into the Feed-Forward Network (FFN) block of the self-attention mechanism. Importantly, SATA seamlessly integrates into existing pre-trained ViT baselines without requiring retraining or additional fine-tuning, while concurrently improving efficiency by reducing the computational load of the FFN units. Experimental results show that the baseline ViTs enhanced with SATA not only achieve a new state-of-the-art top-1 accuracy on ImageNet-1K image classification (94.9%) but also establish new state-of-the-art performance across multiple robustness benchmarks, including ImageNet-A (top-1=63.6%), ImageNet-R (top-1=79.2%), and ImageNet-C (mCE=13.6%), all without requiring additional training or fine-tuning of baseline models.
- Abstract(参考訳): 過去数年間、視覚変換器(ViT)は、様々な視覚認識タスクにおいて、常に顕著な性能を示してきた。
しかし、その堅牢性を高める試みは、主に異なるトレーニング戦略、入力パッチ強化、ネットワーク構造強化に焦点を当て、限られた成功を収めた。
これらのアプローチには、広範囲なトレーニングと微調整が伴うことが多い。
これらの障害に対処するために,空間自己相関トークン分析(SATA)という新しい手法を導入する。
トークンの特徴間の空間的関係を利用することで、SATAはViTモデルの表現能力とロバスト性の両方を高める。
これは、自己保持機構のFeed-Forward Network(FFN)ブロックへの入力の前に、それらの空間的自己相関スコアに従ってトークンの分析とグループ化によって達成される。
重要なことは、SATAは既存のトレーニング済みのViTベースラインにシームレスに統合し、リトレーニングや微調整を必要とせず、FFNユニットの計算負荷を減らすことで効率を同時に改善する。
実験結果によると、SATAで強化されたベースラインViTは、ImageNet-1K画像分類(94.9%)で新しい最先端トップ1の精度を達成するだけでなく、ImageNet-A(トップ-1=63.6%)、ImageNet-R(トップ-1=79.2%)、ImageNet-C(mCE=13.6%)など複数の堅牢性ベンチマークで新しい最先端のパフォーマンスを確立する。
関連論文リスト
- Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads [10.169639612525643]
視覚知覚タスクは、その有効性にもかかわらず、主にViTによって解決される。
その効果にもかかわらず、ViTは自己注意の計算の複雑さのために計算のボトルネックに直面している。
構築した自己意識を近似するFibottention Architectureを提案する。
論文 参考訳(メタデータ) (2024-06-27T17:59:40Z) - DynaSeg: A Deep Dynamic Fusion Method for Unsupervised Image Segmentation Incorporating Feature Similarity and Spatial Continuity [0.5755004576310334]
我々は、革新的な教師なしイメージセグメンテーションアプローチであるDynaSegを紹介する。
従来の方法とは異なり、ダイナセグは動的重み付け方式を採用している。
画像の特徴に柔軟に対応し、他のセグメンテーションネットワークとの統合を容易にする。
論文 参考訳(メタデータ) (2024-05-09T00:30:45Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Fully Attentional Networks with Self-emerging Token Labeling [108.53230681047617]
我々は、意味的に意味のあるパッチトークンラベルを生成するためにFANトークンラベル(FAN-TL)をトレーニングし、その後、トークンラベルとオリジナルクラスラベルの両方を使用するFAN学生モデルトレーニングステージを作成した。
提案したSTLフレームワークでは,ImageNet-1KおよびImageNet-C上で84.8%のTop-1精度と42.1%のmCEを実現し,余分なデータを使用しないImageNet-A(46.1%)とImageNet-R(56.6%)の新たな最先端設定を行う。
論文 参考訳(メタデータ) (2024-01-08T12:14:15Z) - Hierarchical Side-Tuning for Vision Transformers [33.536948382414316]
微調整された事前訓練された視覚変換器(ViTs)は、視覚認識タスクの強化に大きく貢献している。
PETLは、完全な微調整に比べてパラメータ更新が少なく、高いパフォーマンスを実現する可能性がある。
本稿では,多様な下流タスクへのVTモデルの転送を容易にする革新的PETL手法である階層側チューニング(HST)を紹介する。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。