論文の概要: RMT: Retentive Networks Meet Vision Transformers
- arxiv url: http://arxiv.org/abs/2309.11523v5
- Date: Sat, 2 Dec 2023 06:23:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 19:33:04.705493
- Title: RMT: Retentive Networks Meet Vision Transformers
- Title(参考訳): rmt: 注意ネットワークが視覚トランスフォーマーに対応
- Authors: Qihang Fan, Huaibo Huang, Mingrui Chen, Hongmin Liu and Ran He
- Abstract要約: 近年,ビジョントランスフォーマー (ViT) がコンピュータビジョンコミュニティで注目を集めている。
自己注意は空間的先行性に欠け、二次的な計算複雑性を持つ。
一般的な目的のために,空間的に明瞭なバックボーンを持つ強力な視覚バックボーンであるRTTを提案する。
- 参考スコア(独自算出の注目度): 59.827563438653975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer (ViT) has gained increasing attention in the computer
vision community in recent years. However, the core component of ViT,
Self-Attention, lacks explicit spatial priors and bears a quadratic
computational complexity, thereby constraining the applicability of ViT. To
alleviate these issues, we draw inspiration from the recent Retentive Network
(RetNet) in the field of NLP, and propose RMT, a strong vision backbone with
explicit spatial prior for general purposes. Specifically, we extend the
RetNet's temporal decay mechanism to the spatial domain, and propose a spatial
decay matrix based on the Manhattan distance to introduce the explicit spatial
prior to Self-Attention. Additionally, an attention decomposition form that
adeptly adapts to explicit spatial prior is proposed, aiming to reduce the
computational burden of modeling global information without disrupting the
spatial decay matrix. Based on the spatial decay matrix and the attention
decomposition form, we can flexibly integrate explicit spatial prior into the
vision backbone with linear complexity. Extensive experiments demonstrate that
RMT exhibits exceptional performance across various vision tasks. Specifically,
without extra training data, RMT achieves **84.8%** and **86.1%** top-1 acc on
ImageNet-1k with **27M/4.5GFLOPs** and **96M/18.2GFLOPs**. For downstream
tasks, RMT achieves **54.5** box AP and **47.2** mask AP on the COCO detection
task, and **52.8** mIoU on the ADE20K semantic segmentation task. Code is
available at https://github.com/qhfan/RMT
- Abstract(参考訳): 近年,ビジョントランスフォーマー (ViT) がコンピュータビジョンコミュニティで注目を集めている。
しかし、ViTのコアコンポーネントであるSelf-Attentionは、空間的先行性に欠け、二次計算の複雑さを伴い、ViTの適用性を制限している。
これらの問題を緩和するため、最近のNLP分野におけるRetentive Network(RetNet)からインスピレーションを得て、一般的な目的に先立って空間を明示した強力な視覚バックボーンであるRTTを提案する。
具体的には、RetNetの時間的減衰機構を空間領域に拡張し、マンハッタン距離に基づく空間的減衰行列を提案し、自己注意の前に明示的な空間を導入する。
また,空間崩壊行列を乱すことなく,大域的な情報モデリングの計算負担を軽減することを目的とした,空間先行に順応的に適応する注意分解形式を提案する。
空間減衰行列とアテンション分解形式に基づいて,視覚バックボーンに有意な空間事前を線形複雑度で柔軟に統合することができる。
広汎な実験により、RTTは様々な視覚課題において例外的な性能を示した。
具体的には、追加のトレーニングデータなしでは、**84.8%***86.1%*****27M/4.5GFLOPs**および**96M/18.2GFLOPs**のImageNet-1k上で***86.1%**を達成できる。
下流タスクでは、COCO検出タスクでは**54.5*ボックスAPと**47.2*マスクAP、ADE20Kセマンティックセグメンテーションタスクでは**52.8*mIoUを達成する。
コードはhttps://github.com/qhfan/RMTで入手できる。
関連論文リスト
- Vision Transformer with Sparse Scan Prior [57.37893387775829]
人間の眼のスパース走査機構に触発され,textbfScan textbfSelf-textbfAttention 機構を提案する。
このメカニズムはトークンごとに一連のAnchor of Interestをプリ定義し、局所的な注意を使ってこれらのアンカー周辺の空間情報を効率的にモデル化する。
rmS3rmA$で構築すると、 textbfSparse textbfScan textbfVisionを導入します。
論文 参考訳(メタデータ) (2024-05-22T04:34:36Z) - SparseOcc: Rethinking Sparse Latent Representation for Vision-Based Semantic Occupancy Prediction [15.331332063879342]
我々はスパースポイントクラウド処理にインスパイアされた効率的な占有ネットワークであるSparseOccを提案する。
SparseOccは、密度の高いベースライン上のFLOPを74.9%減少させる。
また、12.8%から14.1%のmIOUまで精度が向上しており、これは部分的には空のボクセルに対する幻覚を回避できるスパース表現の能力に起因している。
論文 参考訳(メタデータ) (2024-04-15T06:45:06Z) - ACC-ViT : Atrous Convolution's Comeback in Vision Transformers [5.224344210588584]
我々は,地域情報とグローバル情報の両方を適応的に統合できる,地域的・疎外的な注意の融合であるAtrous Attentionを紹介した。
また、標準的な視覚タスクの慣行に従って、ACC-ViTと呼ばれる一般的な視覚変換器のバックボーンを提案する。
そのためACC-ViTは強力なビジョンバックボーンであり、小さなデータセットを持つニッチアプリケーションには理想的だ。
論文 参考訳(メタデータ) (2024-03-07T04:05:16Z) - Learning Spatial-Temporal Regularized Tensor Sparse RPCA for Background
Subtraction [6.825970634402847]
正確な背景抽出のための時空間正規化テンソルスパース RPCA アルゴリズムを提案する。
6つのパブリックなバックグラウンドサブトラクションデータセットで実験が行われる。
論文 参考訳(メタデータ) (2023-09-27T11:21:31Z) - RFAConv: Innovating Spatial Attention and Standard Convolutional Operation [7.2646541547165056]
RFA(Receptive-Field Attention)と呼ばれる新しい注意機構を提案する。
RFAは受容場空間的特徴に重点を置いているが、大規模な畳み込みカーネルに対して効果的な注意重みを与える。
計算コストとパラメータのほとんど無視可能な増加を提供すると同時に、ネットワーク性能も大幅に向上する。
論文 参考訳(メタデータ) (2023-04-06T16:21:56Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Towards Accurate Pixel-wise Object Tracking by Attention Retrieval [50.06436600343181]
本稿では,バックボーンの特徴に対するソフト空間制約を実現するために,アテンション検索ネットワーク(ARN)を提案する。
私たちは40fpsで動作しながら、最近のピクセルワイドオブジェクトトラッキングベンチマークであるVOT 2020に最先端のベンチマークを新たに設定しました。
論文 参考訳(メタデータ) (2020-08-06T16:25:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。