論文の概要: UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video
UniFormer
- arxiv url: http://arxiv.org/abs/2211.09552v1
- Date: Thu, 17 Nov 2022 14:17:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:29:22.264427
- Title: UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video
UniFormer
- Title(参考訳): UniFormerV2:ビデオUniFormerによる画像ViTの固定による時空間学習
- Authors: Kunchang Li, Yali Wang, Yinan He, Yizhuo Li, Yi Wang, Limin Wang, Yu
Qiao
- Abstract要約: ViT(Vision Transformers)は、長期ビデオ依存を自己注意で学習する能力を示している。
UniFormerは、コンボリューションと自己アテンションをトランスフォーマーフォーマットのリレーションアグリゲータとして統一することで、この問題を緩和した。
そこで本稿では,UniFormerの設計を効率よく行うことで,ビデオネットワークの強力なファミリーを構築するための汎用パラダイムを提案する。
- 参考スコア(独自算出の注目度): 63.53290944664774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning discriminative spatiotemporal representation is the key problem of
video understanding. Recently, Vision Transformers (ViTs) have shown their
power in learning long-term video dependency with self-attention.
Unfortunately, they exhibit limitations in tackling local video redundancy, due
to the blind global comparison among tokens. UniFormer has successfully
alleviated this issue, by unifying convolution and self-attention as a relation
aggregator in the transformer format. However, this model has to require a
tiresome and complicated image-pretraining phrase, before being finetuned on
videos. This blocks its wide usage in practice. On the contrary, open-sourced
ViTs are readily available and well-pretrained with rich image supervision.
Based on these observations, we propose a generic paradigm to build a powerful
family of video networks, by arming the pretrained ViTs with efficient
UniFormer designs. We call this family UniFormerV2, since it inherits the
concise style of the UniFormer block. But it contains brand-new local and
global relation aggregators, which allow for preferable accuracy-computation
balance by seamlessly integrating advantages from both ViTs and UniFormer.
Without any bells and whistles, our UniFormerV2 gets the state-of-the-art
recognition performance on 8 popular video benchmarks, including scene-related
Kinetics-400/600/700 and Moments in Time, temporal-related Something-Something
V1/V2, untrimmed ActivityNet and HACS. In particular, it is the first model to
achieve 90% top-1 accuracy on Kinetics-400, to our best knowledge. Code will be
available at https://github.com/OpenGVLab/UniFormerV2.
- Abstract(参考訳): 識別的時空間表現の学習はビデオ理解の重要な問題である。
近年、ビジョントランスフォーマー (ViT) は、長期ビデオ依存を自己注意で学習する能力を示している。
残念ながら、トークン間の盲目なグローバル比較のため、ローカルなビデオ冗長性に取り組むのに制限がある。
UniFormerは、コンボリューションと自己アテンションをトランスフォーマーフォーマットのリレーションアグリゲータとして統一することで、この問題を緩和した。
しかし、このモデルは、ビデオで微調整される前に、面倒で複雑なイメージプリトレーニングフレーズが必要となる。
これは実際に広く使われることを妨げている。
それとは対照的に、オープンソースのViTは容易に利用でき、リッチなイメージ監視で十分に調整されている。
これらの観測結果に基づいて,UniFormer の設計により事前学習した ViT を固定することで,ビデオネットワークの強力なファミリーを構築するための汎用パラダイムを提案する。
UniFormerブロックの簡潔なスタイルを継承するため、私たちはこのファミリーをUniFormerV2と呼びます。
しかし、新しいローカルおよびグローバルリレーションアグリゲータが含まれており、vitsとuniformerの両方の利点をシームレスに統合することで、精度と計算のバランスが望ましい。
私たちのUniFormerV2は、シーン関連Kineetics-400/600/700やMoments in Time、時間関連Something V1/V2、untrimmed ActivityNet、HACSといった8つの人気ビデオベンチマークで、最先端の認識性能を享受しています。
特に、我々の最善の知識であるkinetics-400において90%のtop-1精度を達成した最初のモデルである。
コードはhttps://github.com/OpenGVLab/UniFormerV2で入手できる。
関連論文リスト
- Multi-entity Video Transformers for Fine-Grained Video Representation
Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。
我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - Uniformer: Unified Transformer for Efficient Spatiotemporal
Representation Learning [68.55487598401788]
この研究の最近の進歩は、主に3D畳み込みニューラルネットワークと視覚変換器によって推進されている。
本稿では3次元畳み込み自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々は、Kineetics-400、Kineetics-600、Something V1&V2といった人気ビデオベンチマークで広範な実験を行っている。
我々の UniFormer は Kinetics-400/Kinetics-600 で 8/84.8% のトップ-1 の精度を実現している。
論文 参考訳(メタデータ) (2022-01-12T20:02:32Z) - Broaden Your Views for Self-Supervised Video Learning [97.52216510672251]
ビデオのための自己教師型学習フレームワークBraVeを紹介する。
BraVeでは、ビューの1つがビデオの狭い一時的なウィンドウにアクセスでき、もう1つのビューはビデオコンテンツに広くアクセスできます。
BraVeが標準ビデオおよびオーディオ分類ベンチマークで自己監督表現学習の最先端の結果を達成することを実証します。
論文 参考訳(メタデータ) (2021-03-30T17:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。