論文の概要: SVFormer: Semi-supervised Video Transformer for Action Recognition
- arxiv url: http://arxiv.org/abs/2211.13222v1
- Date: Wed, 23 Nov 2022 18:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 15:42:43.220639
- Title: SVFormer: Semi-supervised Video Transformer for Action Recognition
- Title(参考訳): SVFormer:アクション認識のための半教師付きビデオトランス
- Authors: Zhen Xing and Qi Dai and Han Hu and Jingjing Chen and Zuxuan Wu and
Yu-Gang Jiang
- Abstract要約: SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
- 参考スコア(独自算出の注目度): 88.52042032347173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised action recognition is a challenging but critical task due to
the high cost of video annotations. Existing approaches mainly use
convolutional neural networks, yet current revolutionary vision transformer
models have been less explored. In this paper, we investigate the use of
transformer models under the SSL setting for action recognition. To this end,
we introduce SVFormer, which adopts a steady pseudo-labeling framework (ie,
EMA-Teacher) to cope with unlabeled video samples. While a wide range of data
augmentations have been shown effective for semi-supervised image
classification, they generally produce limited results for video recognition.
We therefore introduce a novel augmentation strategy, Tube TokenMix, tailored
for video data where video clips are mixed via a mask with consistent masked
tokens over the temporal axis. In addition, we propose a temporal warping
augmentation to cover the complex temporal variation in videos, which stretches
selected frames to various temporal durations in the clip. Extensive
experiments on three datasets Kinetics-400, UCF-101, and HMDB-51 verify the
advantage of SVFormer. In particular, SVFormer outperforms the state-of-the-art
by 31.5% with fewer training epochs under the 1% labeling rate of Kinetics-400.
Our method can hopefully serve as a strong benchmark and encourage future
search on semi-supervised action recognition with Transformer networks.
- Abstract(参考訳): 半教師付き動作認識はビデオアノテーションのコストが高いため、難しいが重要な課題である。
既存のアプローチは主に畳み込みニューラルネットワークを使用しているが、現在の革命的ビジョントランスフォーマーモデルはあまり研究されていない。
本稿では,SSL設定下でのトランスフォーマーモデルを用いた動作認識について検討する。
この目的のために、SVFormerを導入し、静的な擬似ラベルフレームワーク(EMA-Teacher)を用いて、未ラベルのビデオサンプルに対処する。
半教師付き画像分類には幅広いデータ拡張が有効であることが示されているが、一般的にはビデオ認識の限られた結果が得られる。
そこで本研究では,ビデオクリップをテンポラリ軸上に一貫したマスクトークンを持つマスクで混合した映像データに対して,新たな拡張戦略である tube tokenmix を導入する。
さらに,ビデオの複雑な時間変動をカバーし,選択したフレームをクリップ内の様々な時間的持続時間に拡張する時間的ワープ拡張を提案する。
Kinetics-400, UCF-101, HMDB-51の3つのデータセットに対する大規模な実験はSVFormerの利点を検証する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回る。
提案手法は強力なベンチマークとして機能し,Transformer ネットワークを用いた半教師付き行動認識の検索を促進できる。
関連論文リスト
- Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - MAR: Masked Autoencoders for Efficient Action Recognition [46.10824456139004]
視覚変換器(ViT)は、限られた視覚コンテンツのみを与えられたコンテキスト間で補完することができる。
Marは、パッチのパーセンテージを破棄し、ビデオの一部でのみ操作することで、冗長性を低減します。
Marは相変わらず、既存のViTモデルを上回っている。
論文 参考訳(メタデータ) (2022-07-24T04:27:36Z) - BEVT: BERT Pretraining of Video Transformers [89.08460834954161]
本稿では,映像表現学習を空間表現学習と時間ダイナミクス学習に分離するBEVTを紹介する。
我々は、BEVTが非常に有望な結果を得る3つの挑戦的なビデオベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-12-02T18:59:59Z) - Self-supervised Video Transformer [46.295395772938214]
あるビデオから、空間サイズやフレームレートの異なる局所的、グローバルなビューを作成します。
我々の自己監督的目的は、同じビデオが時間外であることを示す異なるビューの特徴と一致させることです。
このアプローチは4つのアクションベンチマークでうまく動作し、小さなバッチサイズでより高速に収束する。
論文 参考訳(メタデータ) (2021-12-02T18:59:02Z) - Learning from Temporal Gradient for Semi-supervised Action Recognition [15.45239134477737]
より注意的な特徴抽出のための追加のモダリティとして時間勾配を導入する。
提案手法は,3つのビデオ行動認識ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-11-25T20:30:30Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。