Fugu-MT 論文翻訳(概要): Vision Transformer with Sparse Scan Prior

論文の概要: Vision Transformer with Sparse Scan Prior

arxiv url: http://arxiv.org/abs/2405.13335v1
Date: Wed, 22 May 2024 04:34:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 01:24:25.603063
Title: Vision Transformer with Sparse Scan Prior
Title（参考訳）: スパーススキャンプリエントを用いた視覚変換器
Authors: Qihang Fan, Huaibo Huang, Mingrui Chen, Ran He,
Abstract要約: 人間の眼のスパース走査機構に触発され,textbfScan textbfSelf-textbfAttention 機構を提案する。このメカニズムはトークンごとに一連のAnchor of Interestをプリ定義し、局所的な注意を使ってこれらのアンカー周辺の空間情報を効率的にモデル化する。 rmS3rmA$で構築すると、 textbfSparse textbfScan textbfVisionを導入します。
参考スコア（独自算出の注目度）: 57.37893387775829
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, Transformers have achieved remarkable progress in computer vision tasks. However, their global modeling often comes with substantial computational overhead, in stark contrast to the human eye's efficient information processing. Inspired by the human eye's sparse scanning mechanism, we propose a \textbf{S}parse \textbf{S}can \textbf{S}elf-\textbf{A}ttention mechanism ($\rm{S}^3\rm{A}$). This mechanism predefines a series of Anchors of Interest for each token and employs local attention to efficiently model the spatial information around these anchors, avoiding redundant global modeling and excessive focus on local information. This approach mirrors the human eye's functionality and significantly reduces the computational load of vision models. Building on $\rm{S}^3\rm{A}$, we introduce the \textbf{S}parse \textbf{S}can \textbf{Vi}sion \textbf{T}ransformer (SSViT). Extensive experiments demonstrate the outstanding performance of SSViT across a variety of tasks. Specifically, on ImageNet classification, without additional supervision or training data, SSViT achieves top-1 accuracies of \textbf{84.4\%/85.7\%} with \textbf{4.4G/18.2G} FLOPs. SSViT also excels in downstream tasks such as object detection, instance segmentation, and semantic segmentation. Its robustness is further validated across diverse datasets. Code will be available at \url{https://github.com/qhfan/SSViT}.
Abstract（参考訳）: 近年、トランスフォーマーはコンピュータビジョンタスクにおいて顕著な進歩を遂げている。しかし、そのグローバルなモデリングは、人間の目の効率的な情報処理とは対照的に、かなり計算上のオーバーヘッドが伴うことが多い。人間の眼のスパース・スキャニング・メカニズムにインスパイアされ,<textbf{S}parse \textbf{S}can \textbf{S}elf-\textbf{A}ttention mechanism(\rm{S}^3\rm{A}$)を提案する。このメカニズムはトークンごとに一連のAnchor of Interestを事前定義し、局所的な注意を払い、これらのアンカー周辺の空間情報を効率的にモデル化し、冗長なグローバルモデリングを避け、局所的な情報に過度にフォーカスする。このアプローチは人間の目の機能を反映し、視覚モデルの計算負荷を大幅に削減する。ここでは、$\rm{S}^3\rm{A}$上に構築し、 \textbf{S}parse \textbf{S}can \textbf{Vi}sion \textbf{T}ransformer (SSViT)を導入する。広範な実験は、様々なタスクにわたるSSViTの卓越した性能を実証している。具体的には、ImageNet分類において、追加の監督データやトレーニングデータなしで、SSViTは \textbf{84.4\%/85.7\%} と \textbf{4.4G/18.2G} FLOPs の最高1の精度を達成している。 SSViTは、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションといった下流タスクも優れている。その堅牢性は、さまざまなデータセットでさらに検証されている。コードは \url{https://github.com/qhfan/SSViT} で入手できる。

関連論文リスト

ZISVFM: Zero-Shot Object Instance Segmentation in Indoor Robotic Environments with Vision Foundation Models [10.858627659431928]
サービスロボットは、機能を強化するために、未知のオブジェクトを効果的に認識し、セグメント化する必要がある。従来の教師付き学習ベースのセグメンテーション技術は、広範な注釈付きデータセットを必要とする。本稿では,セグメンテーションアプライスモデル (SAM) の強力なゼロショット能力と,自己監督型視覚変換器 (ViT) からの明示的な視覚表現を活用することで,UOISを解く新しいアプローチ (ZISVFM) を提案する。
論文参考訳（メタデータ） (2025-02-05T15:22:20Z)
Revisiting the Integration of Convolution and Attention for Vision Backbone [59.50256661158862]
畳み込みとMHSA(Multi-head self-attentions)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。そこで本研究では,MSHAとConvsを,異なる粒度レベルで並列的に使用することを提案する。我々は,提案手法であるtextitGLMix の可能性を実証的に検証した。軽量なConvs に細粒度機能の負荷をオフロードすることで,いくつかのセマンティックスロットで MHSAs を使用するのに十分である。
論文参考訳（メタデータ） (2024-11-21T18:59:08Z)
CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。 CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文参考訳（メタデータ） (2024-08-07T11:33:46Z)
VisMin: Visual Minimal-Change Understanding [7.226130826257802]
我々は、textbfVisual textbfMinimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。 VisMinは2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。 CLIPとIdefics2を微調整する大規模なトレーニングデータセットを生成しました。
論文参考訳（メタデータ） (2024-07-23T18:10:43Z)
Learning Multi-view Anomaly Detection [42.94263165352097]
本研究では,最近提案された多視点異常検出(AD)タスクについて検討する。我々は、textbfMulti-textbfView textbfAnomaly textbfMVAD (textbfMVAD)フレームワークを導入し、マルチビューから機能を学び、統合する。
論文参考訳（メタデータ） (2024-07-16T17:26:34Z)
RMT: Retentive Networks Meet Vision Transformers [59.827563438653975]
近年,ビジョントランスフォーマー (ViT) がコンピュータビジョンコミュニティで注目を集めている。自己注意は空間的先行性に欠け、二次的な計算複雑性を持つ。一般的な目的のために,空間的に明瞭なバックボーンを持つ強力な視覚バックボーンであるRTTを提案する。
論文参考訳（メタデータ） (2023-09-20T00:57:48Z)
A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。 FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文参考訳（メタデータ） (2022-12-23T19:13:43Z)
Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文参考訳（メタデータ） (2022-07-19T15:49:35Z)
TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation [111.8342799044698]
textbfToken textbfPyramid Vision Transtextbfformer (textbfTopFormer)というモバイルフレンドリーなアーキテクチャを提案する。提案された textbfTopFormer は Tokens を様々なスケールから入力として取り出して,スケール対応のセマンティック機能を生成し,対応するトークンに注入して表現を拡大する。 ADE20Kデータセットでは、TopFormerはMobileNetV3よりもmIoUの精度が5%高く、ARMベースのモバイルデバイスではレイテンシが低い。
論文参考訳（メタデータ） (2022-04-12T04:51:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。