論文の概要: Self-Supervised Learning via multi-Transformation Classification for
Action Recognition
- arxiv url: http://arxiv.org/abs/2102.10378v1
- Date: Sat, 20 Feb 2021 16:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 14:59:58.951519
- Title: Self-Supervised Learning via multi-Transformation Classification for
Action Recognition
- Title(参考訳): 行動認識のためのマルチトランスフォーメーション分類による自己監督学習
- Authors: Duc Quang Vu, Ngan T.H.Le and Jia-Ching Wang
- Abstract要約: マルチトランスフォーメーション分類に基づく自己監督型映像表現学習手法を導入し,人間の行動を効率的に分類する。
ビデオの表現は、7つの異なる変換を分類することで自己監督的な方法で学習される。
C3Dおよび3D Resnet-18をバックボーンネットワークとして, UCF101およびHMDB51データセットの実験を行った。
- 参考スコア(独自算出の注目度): 10.676377556393527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised tasks have been utilized to build useful representations that
can be used in downstream tasks when the annotation is unavailable. In this
paper, we introduce a self-supervised video representation learning method
based on the multi-transformation classification to efficiently classify human
actions. Self-supervised learning on various transformations not only provides
richer contextual information but also enables the visual representation more
robust to the transforms. The spatio-temporal representation of the video is
learned in a self-supervised manner by classifying seven different
transformations i.e. rotation, clip inversion, permutation, split, join
transformation, color switch, frame replacement, noise addition. First, seven
different video transformations are applied to video clips. Then the 3D
convolutional neural networks are utilized to extract features for clips and
these features are processed to classify the pseudo-labels. We use the learned
models in pretext tasks as the pre-trained models and fine-tune them to
recognize human actions in the downstream task. We have conducted the
experiments on UCF101 and HMDB51 datasets together with C3D and 3D Resnet-18 as
backbone networks. The experimental results have shown that our proposed
framework is outperformed other SOTA self-supervised action recognition
approaches. The code will be made publicly available.
- Abstract(参考訳): 自己監視されたタスクは、アノテーションが利用できない場合に下流のタスクで使用できる有用な表現を構築するために利用されている。
本稿では,マルチトランスフォーメーション分類に基づく自己監督型映像表現学習手法を提案し,人間の行動を効率的に分類する。
さまざまな変換に関する自己監督学習は、よりリッチなコンテキスト情報を提供するだけでなく、視覚表現を変換に対してより堅牢にします。
ビデオの時空間的表現は、7つの異なる変換を分類することで自己監督的に学習される。
回転、クリップ反転、置換、分割、結合変換、カラースイッチ、フレーム交換、ノイズ追加。
まず、7つの異なる動画変換をビデオクリップに適用する。
次に、3次元畳み込みニューラルネットワークを用いてクリップの特徴を抽出し、これらの特徴を処理して擬似ラベルを分類する。
学習したモデルを事前学習されたモデルとして使用し、下流のタスクで人間の行動を認識するために微調整します。
C3Dおよび3D Resnet-18をバックボーンネットワークとして, UCF101およびHMDB51データセットの実験を行った。
実験結果は、提案されたフレームワークが他のSOTA自己監視アクション認識アプローチよりも優れていることを示した。
コードは公開される予定だ。
関連論文リスト
- ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos [4.736059095502584]
本研究は,半教師付き行動認識のためのコントラスト学習を用いたクロスアーキテクチャ擬似ラベルを用いた新しい手法を提案する。
本稿では,3次元畳み込みニューラルネットワーク(3D CNN)とビデオトランスフォーマー(VIT)を用いて,アクション表現の異なる側面を捉える,新しいクロスアーキテクチャ手法を提案する。
論文 参考訳(メタデータ) (2024-04-09T12:09:56Z) - Video Action Recognition Collaborative Learning with Dynamics via
PSO-ConvNet Transformer [1.876462046907555]
ビデオにおける学習行動のための新しいPSO-ConvNetモデルを提案する。
UCF-101データセットに対する実験結果から,最大9%の精度向上が得られた。
全体として、我々の動的PSO-ConvNetモデルは、人間の行動認識を改善するための有望な方向を提供する。
論文 参考訳(メタデータ) (2023-02-17T23:39:34Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Cross-Architecture Self-supervised Video Representation Learning [42.267775859095664]
自己教師型ビデオ表現学習のためのクロスアーキテクチャ・コントラスト学習フレームワークを提案する。
本稿では,2つのビデオシーケンス間の編集距離を明示的に予測できる時間的自己教師型学習モジュールを提案する。
UCF101およびHMDB51データセットにおける映像検索と行動認識のタスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-05-26T12:41:19Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Cloud based Scalable Object Recognition from Video Streams using
Orientation Fusion and Convolutional Neural Networks [11.44782606621054]
畳み込みニューラルネットワーク(CNN)は、インテリジェントな視覚オブジェクト認識を行うために広く利用されている。
CNNはいまだに深刻な精度低下、特に照明変動データセットに悩まされている。
視覚オブジェクト認識のための方向融合に基づく新しいCNN手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T07:15:15Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Recognizing Actions in Videos from Unseen Viewpoints [80.6338404141284]
本研究では,現在の畳み込みニューラルネットワークモデルでは,トレーニングデータに存在しないカメラ視点からの動作を認識できないことを示す。
視認不能な認識のための新しいデータセットを導入し、視点不変表現を学習するアプローチ能力を示す。
論文 参考訳(メタデータ) (2021-03-30T17:17:54Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Video Representation Learning by Recognizing Temporal Transformations [37.59322456034611]
本研究では,モーションダイナミクスの変化に応答するビデオの表現を学習するための,新たな自己教師型学習手法を提案する。
人間のアノテーションを使わずに正確な動きの学習を促進するために、ニューラルネットワークを訓練し、その時間的に変換されたバージョンから映像シーケンスを識別する。
本実験により,提案手法を用いてトレーニングしたネットワークは,動作認識のための転送性能の向上を図った。
論文 参考訳(メタデータ) (2020-07-21T11:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。