論文の概要: Self-supervised Video Transformer
- arxiv url: http://arxiv.org/abs/2112.01514v1
- Date: Thu, 2 Dec 2021 18:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 17:01:42.195054
- Title: Self-supervised Video Transformer
- Title(参考訳): 自己監督型ビデオトランス
- Authors: Kanchana Ranasinghe, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan,
Michael Ryoo
- Abstract要約: あるビデオから、空間サイズやフレームレートの異なる局所的、グローバルなビューを作成します。
我々の自己監督的目的は、同じビデオが時間外であることを示す異なるビューの特徴と一致させることです。
このアプローチは4つのアクションベンチマークでうまく動作し、小さなバッチサイズでより高速に収束する。
- 参考スコア(独自算出の注目度): 46.295395772938214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose self-supervised training for video transformers
using unlabelled video data. From a given video, we create local and global
spatiotemporal views with varying spatial sizes and frame rates. Our
self-supervised objective seeks to match the features of these different views
representing the same video, to be invariant to spatiotemporal variations in
actions. To the best of our knowledge, the proposed approach is the first to
alleviate the dependency on negative samples or dedicated memory banks in
Self-supervised Video Transformer (SVT). Further, owing to the flexibility of
Transformer models, SVT supports slow-fast video processing within a single
architecture using dynamically adjusted positional encodings and supports
long-term relationship modeling along spatiotemporal dimensions. Our approach
performs well on four action recognition benchmarks (Kinetics-400, UCF-101,
HMDB-51, and SSv2) and converges faster with small batch sizes. Code:
https://git.io/J1juJ
- Abstract(参考訳): 本稿では,非ラベル映像データを用いたビデオトランスフォーマの自己教師あり学習を提案する。
あるビデオから、空間サイズやフレームレートの異なる局所的およびグローバルな時空間ビューを作成する。
私たちの監視対象は、アクションの時空間的変動に不変な、同じビデオを表現するこれらの異なるビューの特徴を一致させることです。
我々の知る限り、提案手法は、自己監督ビデオ変換器(SVT)における負のサンプルや専用メモリバンクへの依存を緩和する最初の方法である。
さらに,トランスフォーマーモデルの柔軟性により,動的に調整された位置エンコーディングを用いて,単一のアーキテクチャ内でスローファストビデオ処理をサポートし,時空間次元に沿った長期関係モデリングをサポートする。
提案手法は,4つの動作認識ベンチマーク(Kinetics-400, UCF-101, HMDB-51, SSv2)で良好に動作し,バッチサイズでより高速に収束する。
コード: https://git.io/j1juj
関連論文リスト
- A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。
本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文 参考訳(メタデータ) (2023-03-17T09:37:07Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - VDTR: Video Deblurring with Transformer [24.20183395758706]
ビデオブレアリングは、挑戦的な時間的モデリングプロセスのため、未解決の問題である。
本稿では,トランスフォーマービデオの導出に適応する有効なトランスフォーマーモデルであるVDTRを提案する。
論文 参考訳(メタデータ) (2022-04-17T14:22:14Z) - Deformable Video Transformer [44.71254375663616]
本稿では,DVT(Deformable Video Transformer)を導入し,ビデオパッチの少数のサブセットを動作情報に基づいて,各クエリロケーションへの参加を予測した。
本モデルでは,計算コストが同じか低い場合に高い精度を達成し,4つのデータセットに対して最先端の計算結果が得られる。
論文 参考訳(メタデータ) (2022-03-31T04:52:27Z) - Multiview Transformers for Video Recognition [69.50552269271526]
様々な解像度でMTV(Multiview Video Recognition)を提示する。
MTVは、精度と計算コストの点で、シングルビューよりも一貫してパフォーマンスが良い。
5つの標準データセットで最先端の結果が得られ、大規模事前学習によりさらに改善される。
論文 参考訳(メタデータ) (2022-01-12T03:33:57Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。