論文の概要: Uniformer: Unified Transformer for Efficient Spatiotemporal
Representation Learning
- arxiv url: http://arxiv.org/abs/2201.04676v1
- Date: Wed, 12 Jan 2022 20:02:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 13:57:54.149938
- Title: Uniformer: Unified Transformer for Efficient Spatiotemporal
Representation Learning
- Title(参考訳): uniformer: 時空間表現学習のための統一トランスフォーマー
- Authors: Kunchang Li, Yali Wang, Peng Gao, Guanglu Song, Yu Liu, Hongsheng Li,
Yu Qiao
- Abstract要約: この研究の最近の進歩は、主に3D畳み込みニューラルネットワークと視覚変換器によって推進されている。
本稿では3次元畳み込み自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々は、Kineetics-400、Kineetics-600、Something V1&V2といった人気ビデオベンチマークで広範な実験を行っている。
我々の UniFormer は Kinetics-400/Kinetics-600 で 8/84.8% のトップ-1 の精度を実現している。
- 参考スコア(独自算出の注目度): 68.55487598401788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is a challenging task to learn rich and multi-scale spatiotemporal
semantics from high-dimensional videos, due to large local redundancy and
complex global dependency between video frames. The recent advances in this
research have been mainly driven by 3D convolutional neural networks and vision
transformers. Although 3D convolution can efficiently aggregate local context
to suppress local redundancy from a small 3D neighborhood, it lacks the
capability to capture global dependency because of the limited receptive field.
Alternatively, vision transformers can effectively capture long-range
dependency by self-attention mechanism, while having the limitation on reducing
local redundancy with blind similarity comparison among all the tokens in each
layer. Based on these observations, we propose a novel Unified transFormer
(UniFormer) which seamlessly integrates merits of 3D convolution and
spatiotemporal self-attention in a concise transformer format, and achieves a
preferable balance between computation and accuracy. Different from traditional
transformers, our relation aggregator can tackle both spatiotemporal redundancy
and dependency, by learning local and global token affinity respectively in
shallow and deep layers. We conduct extensive experiments on the popular video
benchmarks, e.g., Kinetics-400, Kinetics-600, and Something-Something V1&V2.
With only ImageNet-1K pretraining, our UniFormer achieves 82.9%/84.8% top-1
accuracy on Kinetics-400/Kinetics-600, while requiring 10x fewer GFLOPs than
other state-of-the-art methods. For Something-Something V1 and V2, our
UniFormer achieves new state-of-the-art performances of 60.9% and 71.2% top-1
accuracy respectively. Code is available at
https://github.com/Sense-X/UniFormer.
- Abstract(参考訳): 高次元ビデオからリッチでマルチスケールな時空間意味学を学ぶことは、局所的冗長性が大きく、ビデオフレーム間の複雑なグローバル依存のため難しい課題である。
この研究の最近の進歩は、主に3次元畳み込みニューラルネットワークと視覚トランスフォーマによるものである。
3D畳み込みは、局所的なコンテキストを効率的に集約して、小さな3D地区からの局所的冗長性を抑えることができるが、受容野が限られているため、グローバルな依存を捉える能力に欠ける。
あるいは、視覚変換器は、各層内の全てのトークン間の盲点類似性比較による局所冗長性の低減に制限を設けながら、自己保持機構による長距離依存性を効果的に捕捉することができる。
そこで本研究では,3次元畳み込みと時空間自己付着の利点を,簡潔なトランスフォーマットにシームレスに統合し,計算と精度のバランスを両立させる新しい統一トランス(uniformer)を提案する。
従来の変圧器とは異なり、我々の関係集約器は、浅層と深層でそれぞれ局所的および大域的トークン親和性を学ぶことにより、時空間冗長性と依存性の両方に取り組むことができる。
我々は、Kineetics-400、Kineetics-600、Something V1&V2といった人気ビデオベンチマークで広範な実験を行っている。
ImageNet-1K事前トレーニングのみで、我々のUniFormerはKineetics-400/Kinetics-600で82.9%/84.8%のTop-1精度を達成した。
Some-Something V1 と V2 では、UniFormer がそれぞれ 60.9% と 71.2% の最先端性能を実現している。
コードはhttps://github.com/Sense-X/UniFormer.comで入手できる。
関連論文リスト
- ACC-ViT : Atrous Convolution's Comeback in Vision Transformers [5.224344210588584]
我々は,地域情報とグローバル情報の両方を適応的に統合できる,地域的・疎外的な注意の融合であるAtrous Attentionを紹介した。
また、標準的な視覚タスクの慣行に従って、ACC-ViTと呼ばれる一般的な視覚変換器のバックボーンを提案する。
そのためACC-ViTは強力なビジョンバックボーンであり、小さなデータセットを持つニッチアプリケーションには理想的だ。
論文 参考訳(メタデータ) (2024-03-07T04:05:16Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - DualFormer: Local-Global Stratified Transformer for Efficient Video
Recognition [140.66371549815034]
本稿では,映像認識のための時空間アテンションを効果的かつ効率的に行うことのできる,DualFormerと呼ばれる新しいトランスフォーマーアーキテクチャを提案する。
我々は、DualFormerがKinetics-400/600で新しい最先端の82.9%/85.2%のトップ-1の精度を1000Gの推論FLOPで設定していることを示す。
論文 参考訳(メタデータ) (2021-12-09T03:05:19Z) - Token Shift Transformer for Video Classification [34.05954523287077]
トランスフォーマーは1次元信号と2次元信号の理解において顕著な成功を収める。
エンコーダは自然にペアワイズ・セルフアテンションのような計算集約的な操作を含む。
本稿では,各トランスエンコーダ内の時間関係をモデル化するためのToken Shift Module(TokShift)を提案する。
論文 参考訳(メタデータ) (2021-08-05T08:04:54Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。