論文の概要: RMT: Retentive Networks Meet Vision Transformers
- arxiv url: http://arxiv.org/abs/2309.11523v2
- Date: Wed, 11 Oct 2023 14:51:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-15 15:07:25.763340
- Title: RMT: Retentive Networks Meet Vision Transformers
- Title(参考訳): rmt: 注意ネットワークが視覚トランスフォーマーに対応
- Authors: Qihang Fan, Huaibo Huang, Mingrui Chen, Hongmin Liu and Ran He
- Abstract要約: Retentive Network (RetNet) は Transformer を置き換える可能性のあるアーキテクチャとして登場した。
我々はRetNetとTransformerを組み合わせてRTTを提案する。
我々のRTTは、様々なコンピュータビジョンタスクにおいて例外的な性能を示す。
- 参考スコア(独自算出の注目度): 59.827563438653975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer first appears in the field of natural language processing and is
later migrated to the computer vision domain, where it demonstrates excellent
performance in vision tasks. However, recently, Retentive Network (RetNet) has
emerged as an architecture with the potential to replace Transformer,
attracting widespread attention in the NLP community. Therefore, we raise the
question of whether transferring RetNet's idea to vision can also bring
outstanding performance to vision tasks. To address this, we combine RetNet and
Transformer to propose RMT. Inspired by RetNet, RMT introduces explicit decay
into the vision backbone, bringing prior knowledge related to spatial distances
to the vision model. This distance-related spatial prior allows for explicit
control of the range of tokens that each token can attend to. Additionally, to
reduce the computational cost of global modeling, we decompose this modeling
process along the two coordinate axes of the image. Abundant experiments have
demonstrated that our RMT exhibits exceptional performance across various
computer vision tasks. For example, RMT achieves 84.1% Top1-acc on ImageNet-1k
using merely 4.5G FLOPs. To the best of our knowledge, among all models, RMT
achieves the highest Top1-acc when models are of similar size and trained with
the same strategy. Moreover, RMT significantly outperforms existing vision
backbones in downstream tasks such as object detection, instance segmentation,
and semantic segmentation. Our work is still in progress.
- Abstract(参考訳): Transformerは自然言語処理の分野で最初に登場し、後にコンピュータビジョン領域に移行し、視覚タスクにおける優れたパフォーマンスを示す。
しかし、最近、Retentive Network(RetNet)はTransformerを置き換える可能性のあるアーキテクチャとして登場し、NLPコミュニティで広く注目を集めている。
したがって、retnetのアイデアをビジョンに移すことが視覚タスクに優れたパフォーマンスをもたらすかどうかという疑問を提起する。
これを解決するために、RetNetとTransformerを組み合わせてRTTを提案する。
retnetにインスパイアされたrmtは、視覚バックボーンに明示的な減衰を導入し、視覚モデルに空間距離に関する事前知識をもたらす。
この距離に関連する空間的事前は、各トークンが参加できるトークンの範囲を明確に制御することができる。
さらに,大域モデリングの計算コストを低減するため,画像の2つの座標軸に沿ってこのモデリングプロセスを分解する。
冗長な実験により、RTTは様々なコンピュータビジョンタスクにおいて例外的な性能を示した。
例えば、rmt は 4.5g のフロップを用いて imagenet-1k 上で 84.1% の top1-acc を達成している。
我々の知る限りでは、RTTはモデルが同じサイズで同じ戦略で訓練された場合、トップ1-accを達成しています。
さらにRTTは、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションといった下流タスクにおいて、既存のビジョンバックボーンを著しく上回る。
私たちの仕事はまだ進行中です。
関連論文リスト
- Vision Transformer with Sparse Scan Prior [57.37893387775829]
人間の眼のスパース走査機構に触発され,textbfScan textbfSelf-textbfAttention 機構を提案する。
このメカニズムはトークンごとに一連のAnchor of Interestをプリ定義し、局所的な注意を使ってこれらのアンカー周辺の空間情報を効率的にモデル化する。
rmS3rmA$で構築すると、 textbfSparse textbfScan textbfVisionを導入します。
論文 参考訳(メタデータ) (2024-05-22T04:34:36Z) - SparseOcc: Rethinking Sparse Latent Representation for Vision-Based Semantic Occupancy Prediction [15.331332063879342]
我々はスパースポイントクラウド処理にインスパイアされた効率的な占有ネットワークであるSparseOccを提案する。
SparseOccは、密度の高いベースライン上のFLOPを74.9%減少させる。
また、12.8%から14.1%のmIOUまで精度が向上しており、これは部分的には空のボクセルに対する幻覚を回避できるスパース表現の能力に起因している。
論文 参考訳(メタデータ) (2024-04-15T06:45:06Z) - ACC-ViT : Atrous Convolution's Comeback in Vision Transformers [5.224344210588584]
我々は,地域情報とグローバル情報の両方を適応的に統合できる,地域的・疎外的な注意の融合であるAtrous Attentionを紹介した。
また、標準的な視覚タスクの慣行に従って、ACC-ViTと呼ばれる一般的な視覚変換器のバックボーンを提案する。
そのためACC-ViTは強力なビジョンバックボーンであり、小さなデータセットを持つニッチアプリケーションには理想的だ。
論文 参考訳(メタデータ) (2024-03-07T04:05:16Z) - Learning Spatial-Temporal Regularized Tensor Sparse RPCA for Background
Subtraction [6.825970634402847]
正確な背景抽出のための時空間正規化テンソルスパース RPCA アルゴリズムを提案する。
6つのパブリックなバックグラウンドサブトラクションデータセットで実験が行われる。
論文 参考訳(メタデータ) (2023-09-27T11:21:31Z) - RFAConv: Innovating Spatial Attention and Standard Convolutional Operation [7.2646541547165056]
RFA(Receptive-Field Attention)と呼ばれる新しい注意機構を提案する。
RFAは受容場空間的特徴に重点を置いているが、大規模な畳み込みカーネルに対して効果的な注意重みを与える。
計算コストとパラメータのほとんど無視可能な増加を提供すると同時に、ネットワーク性能も大幅に向上する。
論文 参考訳(メタデータ) (2023-04-06T16:21:56Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Towards Accurate Pixel-wise Object Tracking by Attention Retrieval [50.06436600343181]
本稿では,バックボーンの特徴に対するソフト空間制約を実現するために,アテンション検索ネットワーク(ARN)を提案する。
私たちは40fpsで動作しながら、最近のピクセルワイドオブジェクトトラッキングベンチマークであるVOT 2020に最先端のベンチマークを新たに設定しました。
論文 参考訳(メタデータ) (2020-08-06T16:25:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。