論文の概要: LookHere: Vision Transformers with Directed Attention Generalize and Extrapolate
- arxiv url: http://arxiv.org/abs/2405.13985v2
- Date: Tue, 29 Oct 2024 20:39:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:22:57.307705
- Title: LookHere: Vision Transformers with Directed Attention Generalize and Extrapolate
- Title(参考訳): LookHere: 指向性一般化と外挿機能を備えた視覚変換器
- Authors: Anthony Fuller, Daniel G. Kyrollos, Yousef Yassin, James R. Green,
- Abstract要約: 高解像度画像は、モデル精度を向上させるシーンに関する情報を提供する。
視覚変換器(ViT)は、微調整なしでは、大きな画像を効果的に活用できない。
本稿では,平易なViTの位置エンコーディングをドロップインで置き換える手法を提案する。
- 参考スコア(独自算出の注目度): 1.2499537119440245
- License:
- Abstract: High-resolution images offer more information about scenes that can improve model accuracy. However, the dominant model architecture in computer vision, the vision transformer (ViT), cannot effectively leverage larger images without finetuning -- ViTs poorly extrapolate to more patches at test time, although transformers offer sequence length flexibility. We attribute this shortcoming to the current patch position encoding methods, which create a distribution shift when extrapolating. We propose a drop-in replacement for the position encoding of plain ViTs that restricts attention heads to fixed fields of view, pointed in different directions, using 2D attention masks. Our novel method, called LookHere, provides translation-equivariance, ensures attention head diversity, and limits the distribution shift that attention heads face when extrapolating. We demonstrate that LookHere improves performance on classification (avg. 1.6%), against adversarial attack (avg. 5.4%), and decreases calibration error (avg. 1.5%) -- on ImageNet without extrapolation. With extrapolation, LookHere outperforms the current SoTA position encoding method, 2D-RoPE, by 21.7% on ImageNet when trained at $224^2$ px and tested at $1024^2$ px. Additionally, we release a high-resolution test set to improve the evaluation of high-resolution image classifiers, called ImageNet-HR.
- Abstract(参考訳): 高解像度画像は、モデル精度を向上させるシーンに関する情報を提供する。
しかし、コンピュータビジョンにおける支配的なモデルアーキテクチャであるビジョントランスフォーマー(ViT)は、微調整なしでは、大きなイメージを効果的に活用できない。
この欠点は、外挿時の分散シフトを生成する、現在のパッチ位置符号化方式に起因している。
本研究では,2次元の注目マスクを用いて,注目ヘッドを異なる方向を向けた固定視野に制限する平易なViTの位置符号化をドロップインで置き換える手法を提案する。
LookHereと呼ばれる新しい手法は、翻訳等価性を提供し、注意ヘッドの多様性を保証し、外挿時に注意ヘッドが直面する分布シフトを制限する。
LookHereは、分類のパフォーマンス(約1.6%)、敵攻撃(約5.4%)、校正エラー(約1.5%)を、外挿のないImageNetで改善する。
補外法により、LookHereは現在のSoTA位置符号化法である2D-RoPEを、ImageNetで21.7%上回り、224^2$ pxでトレーニングし、1024^2$ pxでテストした。
さらに,画像Net-HRと呼ばれる高分解能画像分類器の評価を改善するための高分解能テストセットもリリースした。
関連論文リスト
- Nested-TNT: Hierarchical Vision Transformers with Multi-Scale Feature Processing [7.202931445597172]
トランスフォーマーは、自然言語処理における優れた性能のため、コンピュータビジョンの分野で応用されている。
本稿ではネストアルゴリズムを導入し,Nested-TNTを画像分類タスクに適用する。
この実験は、提案したモデルが、データセットCIFAR10では2.25%、データセットFLOWERS102では2.78%、0.25%を上回る、ViTとTNTよりも優れた分類性能を達成したことを確認した。
論文 参考訳(メタデータ) (2024-04-20T17:56:14Z) - UCDFormer: Unsupervised Change Detection Using a Transformer-driven
Image Translation [20.131754484570454]
両時間画像の比較による変化検出(CD)は,リモートセンシングにおいて重要な課題である。
リモートセンシング画像に対する領域シフト設定による変更検出を提案する。
UCDFormerと呼ばれる軽量トランスを用いた新しい教師なしCD方式を提案する。
論文 参考訳(メタデータ) (2023-08-02T13:39:08Z) - Soft Augmentation for Image Classification [68.71067594724663]
本稿では,変分変換による拡張の一般化とソフト拡張を提案する。
ソフトターゲットは、より攻撃的なデータ拡張を可能にすることを示す。
また,ソフト拡張が自己教師付き分類タスクに一般化されることも示している。
論文 参考訳(メタデータ) (2022-11-09T01:04:06Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - GradViT: Gradient Inversion of Vision Transformers [83.54779732309653]
我々は,視力変換器(ViT)の勾配に基づく逆攻撃に対する脆弱性を実証する。
自然に見える画像にランダムノイズを最適化するGradViTという手法を提案する。
元の(隠された)データに対する前例のない高い忠実さと近接性を観察する。
論文 参考訳(メタデータ) (2022-03-22T17:06:07Z) - ViTransPAD: Video Transformer using convolution and self-attention for
Face Presentation Attack Detection [15.70621878093133]
顔の提示攻撃検出(PAD)は,顔の生体認証システムに対するスプーフ攻撃を防ぐ重要な手段である。
PADに対する畳み込みニューラルネットワーク(CNN)に基づく多くの研究は、文脈を考慮せずに画像レベルのバイナリタスクとして問題を定式化している。
本研究では,フレーム内の短距離の局所的細部のみに焦点をあてるだけでなく,フレーム上の長距離依存性をキャプチャできる映像ベースの顔PAD(ViTransPAD)を提案する。
論文 参考訳(メタデータ) (2022-03-03T08:23:20Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - Understanding and Improving Robustness of Vision Transformers through
Patch-based Negative Augmentation [29.08732248577141]
本稿では,視覚変換器 (ViT) のレンズによる堅牢性について検討する。
変換が元のセマンティクスを大きく損なう場合でも、ViTはパッチベースの変換に驚くほど敏感であることがわかった。
パッチベースの負の増大は、広範囲のImageNetベースのロバストネスベンチマークにおいて、ViTのロバストネスを一貫して改善することを示す。
論文 参考訳(メタデータ) (2021-10-15T04:53:18Z) - Patch Slimming for Efficient Vision Transformers [107.21146699082819]
与えられたネットワーク上で冗長な計算を行うことにより,視覚変換器の効率性について検討する。
我々は、トップダウンパラダイムで無駄なパッチを捨てる、新しいパッチスリム化アプローチを提案する。
ベンチマークによる実験結果から,提案手法は視覚変換器の計算コストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-05T09:46:00Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。