論文の概要: Vision Transformer with Sparse Scan Prior
- arxiv url: http://arxiv.org/abs/2405.13335v1
- Date: Wed, 22 May 2024 04:34:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 01:24:25.603063
- Title: Vision Transformer with Sparse Scan Prior
- Title(参考訳): スパーススキャンプリエントを用いた視覚変換器
- Authors: Qihang Fan, Huaibo Huang, Mingrui Chen, Ran He,
- Abstract要約: 人間の眼のスパース走査機構に触発され,textbfScan textbfSelf-textbfAttention 機構を提案する。
このメカニズムはトークンごとに一連のAnchor of Interestをプリ定義し、局所的な注意を使ってこれらのアンカー周辺の空間情報を効率的にモデル化する。
rmS3rmA$で構築すると、 textbfSparse textbfScan textbfVisionを導入します。
- 参考スコア(独自算出の注目度): 57.37893387775829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Transformers have achieved remarkable progress in computer vision tasks. However, their global modeling often comes with substantial computational overhead, in stark contrast to the human eye's efficient information processing. Inspired by the human eye's sparse scanning mechanism, we propose a \textbf{S}parse \textbf{S}can \textbf{S}elf-\textbf{A}ttention mechanism ($\rm{S}^3\rm{A}$). This mechanism predefines a series of Anchors of Interest for each token and employs local attention to efficiently model the spatial information around these anchors, avoiding redundant global modeling and excessive focus on local information. This approach mirrors the human eye's functionality and significantly reduces the computational load of vision models. Building on $\rm{S}^3\rm{A}$, we introduce the \textbf{S}parse \textbf{S}can \textbf{Vi}sion \textbf{T}ransformer (SSViT). Extensive experiments demonstrate the outstanding performance of SSViT across a variety of tasks. Specifically, on ImageNet classification, without additional supervision or training data, SSViT achieves top-1 accuracies of \textbf{84.4\%/85.7\%} with \textbf{4.4G/18.2G} FLOPs. SSViT also excels in downstream tasks such as object detection, instance segmentation, and semantic segmentation. Its robustness is further validated across diverse datasets. Code will be available at \url{https://github.com/qhfan/SSViT}.
- Abstract(参考訳): 近年、トランスフォーマーはコンピュータビジョンタスクにおいて顕著な進歩を遂げている。
しかし、そのグローバルなモデリングは、人間の目の効率的な情報処理とは対照的に、かなり計算上のオーバーヘッドが伴うことが多い。
人間の眼のスパース・スキャニング・メカニズムにインスパイアされ,<textbf{S}parse \textbf{S}can \textbf{S}elf-\textbf{A}ttention mechanism(\rm{S}^3\rm{A}$)を提案する。
このメカニズムはトークンごとに一連のAnchor of Interestを事前定義し、局所的な注意を払い、これらのアンカー周辺の空間情報を効率的にモデル化し、冗長なグローバルモデリングを避け、局所的な情報に過度にフォーカスする。
このアプローチは人間の目の機能を反映し、視覚モデルの計算負荷を大幅に削減する。
ここでは、$\rm{S}^3\rm{A}$上に構築し、 \textbf{S}parse \textbf{S}can \textbf{Vi}sion \textbf{T}ransformer (SSViT)を導入する。
広範な実験は、様々なタスクにわたるSSViTの卓越した性能を実証している。
具体的には、ImageNet分類において、追加の監督データやトレーニングデータなしで、SSViTは \textbf{84.4\%/85.7\%} と \textbf{4.4G/18.2G} FLOPs の最高1の精度を達成している。
SSViTは、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションといった下流タスクも優れている。
その堅牢性は、さまざまなデータセットでさらに検証されている。
コードは \url{https://github.com/qhfan/SSViT} で入手できる。
関連論文リスト
- VisMin: Visual Minimal-Change Understanding [7.226130826257802]
我々は、textbfVisual textbfMinimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。
VisMinは2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。
CLIPとIdefics2を微調整する大規模なトレーニングデータセットを生成しました。
論文 参考訳(メタデータ) (2024-07-23T18:10:43Z) - Learning Multi-view Anomaly Detection [42.94263165352097]
本研究では,最近提案された多視点異常検出(AD)タスクについて検討する。
我々は、textbfMulti-textbfView textbfAnomaly textbfMVAD (textbfMVAD)フレームワークを導入し、マルチビューから機能を学び、統合する。
論文 参考訳(メタデータ) (2024-07-16T17:26:34Z) - Semantic Equitable Clustering: A Simple, Fast and Effective Strategy for Vision Transformer [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
我々は、textbf27Mパラメータと textbf4.4G FLOPs のみを用いて、印象的な textbf84.2% 画像分類精度が得られる多用途視覚バックボーン SecViT を提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - RMT: Retentive Networks Meet Vision Transformers [59.827563438653975]
近年,ビジョントランスフォーマー (ViT) がコンピュータビジョンコミュニティで注目を集めている。
自己注意は空間的先行性に欠け、二次的な計算複雑性を持つ。
一般的な目的のために,空間的に明瞭なバックボーンを持つ強力な視覚バックボーンであるRTTを提案する。
論文 参考訳(メタデータ) (2023-09-20T00:57:48Z) - Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [144.38869017091199]
画像分類における視覚変換器(ViT)は、視覚表現学習の方法論をシフトさせている。
本研究では、高密度視覚予測のためのVTのグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation [111.8342799044698]
textbfToken textbfPyramid Vision Transtextbfformer (textbfTopFormer)というモバイルフレンドリーなアーキテクチャを提案する。
提案された textbfTopFormer は Tokens を様々なスケールから入力として取り出して,スケール対応のセマンティック機能を生成し,対応するトークンに注入して表現を拡大する。
ADE20Kデータセットでは、TopFormerはMobileNetV3よりもmIoUの精度が5%高く、ARMベースのモバイルデバイスではレイテンシが低い。
論文 参考訳(メタデータ) (2022-04-12T04:51:42Z) - MUNet: Motion Uncertainty-aware Semi-supervised Video Object
Segmentation [31.100954335785026]
本稿では,映像オブジェクトの半教師付きセグメンテーションのための動作不確実性認識フレームワーク(MUNet)を提案する。
動作特徴と意味的特徴を効果的に融合する動き認識型空間アテンションモジュールを提案する。
トレーニングにDAVIS17のみを使用する$76.5%の$mathcalJとmathcalF$は、低データプロトコル下でのtextitSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-29T16:01:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。