論文の概要: UniFormer: Unifying Convolution and Self-attention for Visual
Recognition
- arxiv url: http://arxiv.org/abs/2201.09450v1
- Date: Mon, 24 Jan 2022 04:39:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 15:46:46.875557
- Title: UniFormer: Unifying Convolution and Self-attention for Visual
Recognition
- Title(参考訳): UniFormer: 視覚認識のための畳み込みと自己注意の統合
- Authors: Kunchang Li, Yali Wang, Junhao Zhang, Peng Gao, Guanglu Song, Yu Liu,
Hongsheng Li, Yu Qiao
- Abstract要約: 畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
- 参考スコア(独自算出の注目度): 69.68907941116127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is a challenging task to learn discriminative representation from images
and videos, due to large local redundancy and complex global dependency in
these visual data. Convolution neural networks (CNNs) and vision transformers
(ViTs) have been two dominant frameworks in the past few years. Though CNNs can
efficiently decrease local redundancy by convolution within a small
neighborhood, the limited receptive field makes it hard to capture global
dependency. Alternatively, ViTs can effectively capture long-range dependency
via self-attention, while blind similarity comparisons among all the tokens
lead to high redundancy. To resolve these problems, we propose a novel Unified
transFormer (UniFormer), which can seamlessly integrate the merits of
convolution and self-attention in a concise transformer format. Different from
the typical transformer blocks, the relation aggregators in our UniFormer block
are equipped with local and global token affinity respectively in shallow and
deep layers, allowing to tackle both redundancy and dependency for efficient
and effective representation learning. Finally, we flexibly stack our UniFormer
blocks into a new powerful backbone, and adopt it for various vision tasks from
image to video domain, from classification to dense prediction. Without any
extra training data, our UniFormer achieves 86.3 top-1 accuracy on ImageNet-1K
classification. With only ImageNet-1K pre-training, it can simply achieve
state-of-the-art performance in a broad range of downstream tasks, e.g., it
obtains 82.9/84.8 top-1 accuracy on Kinetics-400/600, 60.9/71.2 top-1 accuracy
on Something-Something V1/V2 video classification tasks, 53.8 box AP and 46.4
mask AP on COCO object detection task, 50.8 mIoU on ADE20K semantic
segmentation task, and 77.4 AP on COCO pose estimation task. Code is available
at https://github.com/Sense-X/UniFormer.
- Abstract(参考訳): 画像やビデオから識別表現を学ぶことは、大きな局所冗長性と、これらの視覚データにおける複雑なグローバル依存のため、難しい課題である。
畳み込みニューラルネットワーク(cnns)と視覚トランスフォーマー(vits)は、ここ数年で2つの主要なフレームワークとなっている。
cnnは小さな近傍での畳み込みによって局所冗長性を効率的に減らすことができるが、限定的な受容場はグローバルな依存を捉えることが困難である。
あるいは、ViTsは自己注意による長距離依存を効果的に捉えることができるが、トークン間の視覚的類似性比較は高い冗長性をもたらす。
これらの問題を解決するために,コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合できる新しいUnified TransFormer(UniFormer)を提案する。
典型的な変換ブロックとは異なり、UniFormerブロック内の関係アグリゲータは、それぞれ浅層と深層に局所的および大域的トークン親和性を備えており、冗長性と依存性の両方に対処し、効率的かつ効率的な表現学習を可能にする。
最後に、UniFormerブロックを柔軟に新しい強力なバックボーンにスタックし、分類から密集した予測まで、画像からビデオ領域まで様々な視覚タスクに適用します。
トレーニングデータなしでは、imagenet-1k分類において86.3top-1精度が得られる。
imagenet-1kを事前トレーニングするだけで、速度-400/600での82.9/84.8 top-1精度、何らかのv1/v2ビデオ分類タスクの60.9/71.2 top-1精度、cocoオブジェクト検出タスクの53.8 box apと46.4 mask ap、ade20kセマンティクスセグメンテーションタスクの50.8 miou、cocoポーズ推定タスクの77.4 apが得られる。
コードはhttps://github.com/Sense-X/UniFormer.comで入手できる。
関連論文リスト
- DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Vision Transformer with Super Token Sampling [93.70963123497327]
多くの視覚タスクにおいて、視覚変換器は印象的なパフォーマンスを達成した。
浅い層のために局所的な特徴を捉える際に、高い冗長性に悩まされる可能性がある。
スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとする。
論文 参考訳(メタデータ) (2022-11-21T03:48:13Z) - ConvFormer: Closing the Gap Between CNN and Vision Transformers [12.793893108426742]
複数のカーネルサイズで入力画像の異なるパターンをキャプチャするMCAという新しいアテンション機構を提案する。
MCAに基づいて,ConvFormerというニューラルネットワークを提案する。
ConvFormerは、様々なタスクにおいて、同様の大きさの視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)より優れていることを示す。
論文 参考訳(メタデータ) (2022-09-16T06:45:01Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - Uniformer: Unified Transformer for Efficient Spatiotemporal
Representation Learning [68.55487598401788]
この研究の最近の進歩は、主に3D畳み込みニューラルネットワークと視覚変換器によって推進されている。
本稿では3次元畳み込み自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々は、Kineetics-400、Kineetics-600、Something V1&V2といった人気ビデオベンチマークで広範な実験を行っている。
我々の UniFormer は Kinetics-400/Kinetics-600 で 8/84.8% のトップ-1 の精度を実現している。
論文 参考訳(メタデータ) (2022-01-12T20:02:32Z) - Pale Transformer: A General Vision Transformer Backbone with Pale-Shaped
Attention [28.44439386445018]
そこで我々は,淡い形の領域内で自己注意を行うPale-Shaped Self-Attentionを提案する。
グローバルな自己アテンションと比較すると、PS-Attentionは計算とメモリコストを大幅に削減できる。
モデルサイズ22M, 48M, 85Mで, 83.4%, 84.3%, 84.9%のTop-1精度を実現する。
論文 参考訳(メタデータ) (2021-12-28T05:37:24Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。