論文の概要: FoveaTer: Foveated Transformer for Image Classification
- arxiv url: http://arxiv.org/abs/2105.14173v1
- Date: Sat, 29 May 2021 01:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:17:39.988882
- Title: FoveaTer: Foveated Transformer for Image Classification
- Title(参考訳): FoveaTer:画像分類のためのFloveated Transformer
- Authors: Aditya Jonnalagadda, William Wang, Miguel P. Eckstein
- Abstract要約: 本研究では,プール領域とサスカディック動作を用いてオブジェクト分類タスクを行うFoveaTerモデルを提案する。
本研究では,提案モデルと未発見モデルを用いてアンサンブルモデルを構築し,未発見モデルよりも精度1.36%の精度で計算コストを22%削減した。
- 参考スコア(独自算出の注目度): 8.207403859762044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many animals and humans process the visual field with a varying spatial
resolution (foveated vision) and use peripheral processing to make eye
movements and point the fovea to acquire high-resolution information about
objects of interest. This architecture results in computationally efficient
rapid scene exploration. Recent progress in vision Transformers has brought
about new alternatives to the traditionally convolution-reliant computer vision
systems. However, these models do not explicitly model the foveated properties
of the visual system nor the interaction between eye movements and the
classification task. We propose foveated Transformer (FoveaTer) model, which
uses pooling regions and saccadic movements to perform object classification
tasks using a vision Transformer architecture. Our proposed model pools the
image features using squared pooling regions, an approximation to the
biologically-inspired foveated architecture, and uses the pooled features as an
input to a Transformer Network. It decides on the following fixation location
based on the attention assigned by the Transformer to various locations from
previous and present fixations. The model uses a confidence threshold to stop
scene exploration, allowing to dynamically allocate more fixation/computational
resources to more challenging images. We construct an ensemble model using our
proposed model and unfoveated model, achieving an accuracy 1.36% below the
unfoveated model with 22% computational savings. Finally, we demonstrate our
model's robustness against adversarial attacks, where it outperforms the
unfoveated model.
- Abstract(参考訳): 多くの動物やヒトは、様々な空間分解能で視野を処理し、周辺処理を用いて眼球運動を行い、焦点を向け、興味のある物体に関する高解像度情報を取得する。
このアーキテクチャは計算効率の良い高速シーン探索をもたらす。
近年の視覚の進歩により、トランスフォーマーは従来の畳み込み型コンピュータビジョンシステムに新しい代替手段をもたらした。
しかし、これらのモデルは視覚系の焦点特性や眼球運動と分類課題との相互作用を明示的にモデル化していない。
本稿では,視覚トランスフォーマーを用いて物体分類を行うために,プーリング領域とサッカディド運動を用いたフォベレーショントランスフォーメータモデルを提案する。
提案モデルでは,2乗プール領域を用いて画像特徴をプールし,バイオインスパイアされた葉状アーキテクチャを近似し,プールした特徴をトランスフォーマーネットワークへの入力として利用する。
変圧器が以前の固定から現在までの様々な場所に割り当てた注意に基づいて、以下の固定位置を決定する。
このモデルは、シーン探索を止めるために信頼しきい値を使用しており、より困難な画像に対して、より多くの固定/計算リソースを動的に割り当てることができる。
提案モデルと非フォブモデルを用いてアンサンブルモデルを構築し,22%の計算節約で非フォブモデルより1.36%低い精度を実現した。
最後に、我々のモデルが敵攻撃に対して頑健であることを示す。
関連論文リスト
- Transformers and Slot Encoding for Sample Efficient Physical World Modelling [1.5498250598583487]
本研究では,世界モデリングのためのトランスフォーマーとスロットアテンションパラダイムを組み合わせたアーキテクチャを提案する。
得られたニューラルアーキテクチャについて述べるとともに、既存のソリューションよりも、サンプル効率とトレーニング例よりも性能の変動を低減できることを示す実験結果を報告する。
論文 参考訳(メタデータ) (2024-05-30T15:48:04Z) - Transformers For Recognition In Overhead Imagery: A Reality Check [0.0]
オーバヘッド画像のための最先端セグメンテーションモデルにトランスフォーマー構造を加えることの影響を比較した。
我々の結果は、トランスフォーマーは一貫性があるが、控えめな、パフォーマンスの向上をもたらすことを示唆している。
論文 参考訳(メタデータ) (2022-10-23T02:17:31Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Optimizing Relevance Maps of Vision Transformers Improves Robustness [91.61353418331244]
視覚的分類モデルは、しばしば画像背景に依存し、前景を無視し、分布の変化に対する頑丈さを損なうことが観察されている。
本稿では,モデルが前景オブジェクトに注目するように,モデルの関連性信号を監視して操作することを提案する。
これは、画像とそれに関連する前景マスクからなる比較的少数のサンプルを含む、微調整のステップとして行われる。
論文 参考訳(メタデータ) (2022-06-02T17:24:48Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Swin-Pose: Swin Transformer Based Human Pose Estimation [16.247836509380026]
畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンタスクで広く利用されている。
CNNは、固定された受信フィールドを持ち、人間のポーズ推定に不可欠である長距離知覚能力に欠ける。
本稿では,特徴ピラミッド融合構造により拡張されたトランスフォーマーアーキテクチャに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2022-01-19T02:15:26Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Generative Adversarial Transformers [13.633811200719627]
本稿では,新規かつ効率的な変換器であるGANsformerを紹介し,視覚生成モデリングの課題について検討する。
ネットワークは、線形効率の計算を維持しながら、画像間の長距離相互作用を可能にする二部構造を用いる。
高速な学習とより良いデータ効率を享受しながら、画像品質と多様性の観点から最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-01T18:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。