論文の概要: Vision Transformer with Sparse Scan Prior
- arxiv url: http://arxiv.org/abs/2405.13335v1
- Date: Wed, 22 May 2024 04:34:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 01:24:25.603063
- Title: Vision Transformer with Sparse Scan Prior
- Title(参考訳): スパーススキャンプリエントを用いた視覚変換器
- Authors: Qihang Fan, Huaibo Huang, Mingrui Chen, Ran He,
- Abstract要約: 人間の眼のスパース走査機構に触発され,textbfScan textbfSelf-textbfAttention 機構を提案する。
このメカニズムはトークンごとに一連のAnchor of Interestをプリ定義し、局所的な注意を使ってこれらのアンカー周辺の空間情報を効率的にモデル化する。
rmS3rmA$で構築すると、 textbfSparse textbfScan textbfVisionを導入します。
- 参考スコア(独自算出の注目度): 57.37893387775829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Transformers have achieved remarkable progress in computer vision tasks. However, their global modeling often comes with substantial computational overhead, in stark contrast to the human eye's efficient information processing. Inspired by the human eye's sparse scanning mechanism, we propose a \textbf{S}parse \textbf{S}can \textbf{S}elf-\textbf{A}ttention mechanism ($\rm{S}^3\rm{A}$). This mechanism predefines a series of Anchors of Interest for each token and employs local attention to efficiently model the spatial information around these anchors, avoiding redundant global modeling and excessive focus on local information. This approach mirrors the human eye's functionality and significantly reduces the computational load of vision models. Building on $\rm{S}^3\rm{A}$, we introduce the \textbf{S}parse \textbf{S}can \textbf{Vi}sion \textbf{T}ransformer (SSViT). Extensive experiments demonstrate the outstanding performance of SSViT across a variety of tasks. Specifically, on ImageNet classification, without additional supervision or training data, SSViT achieves top-1 accuracies of \textbf{84.4\%/85.7\%} with \textbf{4.4G/18.2G} FLOPs. SSViT also excels in downstream tasks such as object detection, instance segmentation, and semantic segmentation. Its robustness is further validated across diverse datasets. Code will be available at \url{https://github.com/qhfan/SSViT}.
- Abstract(参考訳): 近年、トランスフォーマーはコンピュータビジョンタスクにおいて顕著な進歩を遂げている。
しかし、そのグローバルなモデリングは、人間の目の効率的な情報処理とは対照的に、かなり計算上のオーバーヘッドが伴うことが多い。
人間の眼のスパース・スキャニング・メカニズムにインスパイアされ,<textbf{S}parse \textbf{S}can \textbf{S}elf-\textbf{A}ttention mechanism(\rm{S}^3\rm{A}$)を提案する。
このメカニズムはトークンごとに一連のAnchor of Interestを事前定義し、局所的な注意を払い、これらのアンカー周辺の空間情報を効率的にモデル化し、冗長なグローバルモデリングを避け、局所的な情報に過度にフォーカスする。
このアプローチは人間の目の機能を反映し、視覚モデルの計算負荷を大幅に削減する。
ここでは、$\rm{S}^3\rm{A}$上に構築し、 \textbf{S}parse \textbf{S}can \textbf{Vi}sion \textbf{T}ransformer (SSViT)を導入する。
広範な実験は、様々なタスクにわたるSSViTの卓越した性能を実証している。
具体的には、ImageNet分類において、追加の監督データやトレーニングデータなしで、SSViTは \textbf{84.4\%/85.7\%} と \textbf{4.4G/18.2G} FLOPs の最高1の精度を達成している。
SSViTは、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションといった下流タスクも優れている。
その堅牢性は、さまざまなデータセットでさらに検証されている。
コードは \url{https://github.com/qhfan/SSViT} で入手できる。
関連論文リスト
- Revisiting the Integration of Convolution and Attention for Vision Backbone [59.50256661158862]
畳み込みとMHSA(Multi-head self-attentions)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。
そこで本研究では,MSHAとConvsを,異なる粒度レベルで並列的に使用することを提案する。
我々は,提案手法であるtextitGLMix の可能性を実証的に検証した。軽量なConvs に細粒度機能の負荷をオフロードすることで,いくつかのセマンティックスロットで MHSAs を使用するのに十分である。
論文 参考訳(メタデータ) (2024-11-21T18:59:08Z) - CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。
我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - VisMin: Visual Minimal-Change Understanding [7.226130826257802]
我々は、textbfVisual textbfMinimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。
VisMinは2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。
CLIPとIdefics2を微調整する大規模なトレーニングデータセットを生成しました。
論文 参考訳(メタデータ) (2024-07-23T18:10:43Z) - Learning Multi-view Anomaly Detection [42.94263165352097]
本研究では,最近提案された多視点異常検出(AD)タスクについて検討する。
我々は、textbfMulti-textbfView textbfAnomaly textbfMVAD (textbfMVAD)フレームワークを導入し、マルチビューから機能を学び、統合する。
論文 参考訳(メタデータ) (2024-07-16T17:26:34Z) - RMT: Retentive Networks Meet Vision Transformers [59.827563438653975]
近年,ビジョントランスフォーマー (ViT) がコンピュータビジョンコミュニティで注目を集めている。
自己注意は空間的先行性に欠け、二次的な計算複雑性を持つ。
一般的な目的のために,空間的に明瞭なバックボーンを持つ強力な視覚バックボーンであるRTTを提案する。
論文 参考訳(メタデータ) (2023-09-20T00:57:48Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation [111.8342799044698]
textbfToken textbfPyramid Vision Transtextbfformer (textbfTopFormer)というモバイルフレンドリーなアーキテクチャを提案する。
提案された textbfTopFormer は Tokens を様々なスケールから入力として取り出して,スケール対応のセマンティック機能を生成し,対応するトークンに注入して表現を拡大する。
ADE20Kデータセットでは、TopFormerはMobileNetV3よりもmIoUの精度が5%高く、ARMベースのモバイルデバイスではレイテンシが低い。
論文 参考訳(メタデータ) (2022-04-12T04:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。