論文の概要: RMT: Retentive Networks Meet Vision Transformers
- arxiv url: http://arxiv.org/abs/2309.11523v4
- Date: Sat, 4 Nov 2023 04:55:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 19:06:53.539834
- Title: RMT: Retentive Networks Meet Vision Transformers
- Title(参考訳): rmt: 注意ネットワークが視覚トランスフォーマーに対応
- Authors: Qihang Fan, Huaibo Huang, Mingrui Chen, Hongmin Liu and Ran He
- Abstract要約: Retentive NetworkはNLPのドメインで最初に登場し、その顕著な性能のためにすぐに注目を集めた。
その印象的な能力のかなりの部分は、貴重な事前知識を含む明示的な崩壊機構に由来する。
距離関連事前知識を導入するための視覚モデルに特化して設計された,双方向2次元の明示的減衰形式を提案する。
- 参考スコア(独自算出の注目度): 59.827563438653975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retentive Network first emerged in the domain of NLP and immediately gained
widespread attention due to its remarkable performance. A significant portion
of its impressive capabilities stems from its explicit decay mechanism, which
incorporates valuable prior knowledge. However, this explicit decay is
unidirectional and one-dimensional, making it unsuitable for the bidirectional,
two-dimensional modeling required in image-based tasks. To solve this, we
propose a bidirectional, two-dimensional form of explicit decay specifically
designed for vision models to introduce distance-related prior knowledge.
Besides, unlike language models, the vision backbones use the same parallel
form during training and inference. If this parallel form is replaced with
recurrent or chunk-wise recurrent form, the parallelism of the model will be
significantly disrupted, resulting in extremely slow inference speed. So we
discard the two additional inference modes present in the original RetNet,
retaining only the parallel form. Specifically, we incorporate bidirectional,
two-dimensional explicit decay into the Self-Attention to form
\textbf{Re}tentive \textbf{S}elf-\textbf{A}ttention (ReSA). Furthermore, to
reduce the complexity of global modeling, we decompose ReSA along the two axes
of the image. Building upon ReSA, we construct RMT, a strong vision backbone.
Abundant experiments have demonstrated that our RMT exhibits exceptional
performance across various computer vision tasks. For example, RMT achieves
\textbf{84.1\%} Top1-acc on ImageNet-1k using merely \textbf{4.5G} FLOPs. To
the best of our knowledge, among all models, RMT achieves the highest Top1-acc
when models are of similar size and trained with the same strategy. Moreover,
RMT significantly outperforms existing vision backbones in downstream tasks.
Code will be released at https://github.com/qhfan/RMT.
- Abstract(参考訳): Retentive NetworkはNLPのドメインで最初に登場し、その顕著な性能のためにすぐに注目を集めた。
その印象的な能力のかなりの部分は、貴重な事前知識を含む明示的な崩壊機構に由来する。
しかし、この明示的な減衰は一方向的で一次元であり、画像ベースタスクに必要な双方向2次元モデリングには適さない。
そこで本研究では,視覚モデルを用いた距離関連事前知識の導入を目的とした,双方向2次元の明示的減衰法を提案する。
さらに、言語モデルとは異なり、視覚バックボーンはトレーニングや推論中に同じ並列フォームを使用する。
この並列形式が再帰的あるいはチャンク的リカレント形式に置き換えられると、モデルの並列性は著しく乱れ、非常に遅い推論速度となる。
そのため、元のRetNetにある2つの追加の推論モードを捨て、並列フォームのみを保持します。
具体的には、双方向の2次元明示的減衰を自己アテンションに組み込んで \textbf{re}tentive \textbf{s}elf-\textbf{a}ttention (resa) を形成する。
さらに,大域的モデリングの複雑さを軽減するため,画像の2軸に沿ってReSAを分解する。
ReSAに基づいて、強力なビジョンバックボーンであるRTTを構築します。
冗長な実験により、RTTは様々なコンピュータビジョンタスクにおいて例外的な性能を示した。
例えば、RTT は単に \textbf{4.5G} FLOPs を用いて ImageNet-1k 上で \textbf{84.1\%} Top1-acc を達成する。
我々の知る限りでは、RTTはモデルが同じサイズで同じ戦略で訓練された場合、トップ1-accを達成しています。
さらに、RTTは下流タスクにおいて、既存のビジョンバックボーンを著しく上回る。
コードはhttps://github.com/qhfan/rmtでリリースされる。
関連論文リスト
- Vision Transformer with Sparse Scan Prior [57.37893387775829]
人間の眼のスパース走査機構に触発され,textbfScan textbfSelf-textbfAttention 機構を提案する。
このメカニズムはトークンごとに一連のAnchor of Interestをプリ定義し、局所的な注意を使ってこれらのアンカー周辺の空間情報を効率的にモデル化する。
rmS3rmA$で構築すると、 textbfSparse textbfScan textbfVisionを導入します。
論文 参考訳(メタデータ) (2024-05-22T04:34:36Z) - SparseOcc: Rethinking Sparse Latent Representation for Vision-Based Semantic Occupancy Prediction [15.331332063879342]
我々はスパースポイントクラウド処理にインスパイアされた効率的な占有ネットワークであるSparseOccを提案する。
SparseOccは、密度の高いベースライン上のFLOPを74.9%減少させる。
また、12.8%から14.1%のmIOUまで精度が向上しており、これは部分的には空のボクセルに対する幻覚を回避できるスパース表現の能力に起因している。
論文 参考訳(メタデータ) (2024-04-15T06:45:06Z) - ACC-ViT : Atrous Convolution's Comeback in Vision Transformers [5.224344210588584]
我々は,地域情報とグローバル情報の両方を適応的に統合できる,地域的・疎外的な注意の融合であるAtrous Attentionを紹介した。
また、標準的な視覚タスクの慣行に従って、ACC-ViTと呼ばれる一般的な視覚変換器のバックボーンを提案する。
そのためACC-ViTは強力なビジョンバックボーンであり、小さなデータセットを持つニッチアプリケーションには理想的だ。
論文 参考訳(メタデータ) (2024-03-07T04:05:16Z) - Learning Spatial-Temporal Regularized Tensor Sparse RPCA for Background
Subtraction [6.825970634402847]
正確な背景抽出のための時空間正規化テンソルスパース RPCA アルゴリズムを提案する。
6つのパブリックなバックグラウンドサブトラクションデータセットで実験が行われる。
論文 参考訳(メタデータ) (2023-09-27T11:21:31Z) - RFAConv: Innovating Spatial Attention and Standard Convolutional Operation [7.2646541547165056]
RFA(Receptive-Field Attention)と呼ばれる新しい注意機構を提案する。
RFAは受容場空間的特徴に重点を置いているが、大規模な畳み込みカーネルに対して効果的な注意重みを与える。
計算コストとパラメータのほとんど無視可能な増加を提供すると同時に、ネットワーク性能も大幅に向上する。
論文 参考訳(メタデータ) (2023-04-06T16:21:56Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Towards Accurate Pixel-wise Object Tracking by Attention Retrieval [50.06436600343181]
本稿では,バックボーンの特徴に対するソフト空間制約を実現するために,アテンション検索ネットワーク(ARN)を提案する。
私たちは40fpsで動作しながら、最近のピクセルワイドオブジェクトトラッキングベンチマークであるVOT 2020に最先端のベンチマークを新たに設定しました。
論文 参考訳(メタデータ) (2020-08-06T16:25:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。