論文の概要: Learning from Temporal Gradient for Semi-supervised Action Recognition
- arxiv url: http://arxiv.org/abs/2111.13241v1
- Date: Thu, 25 Nov 2021 20:30:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 16:41:32.865470
- Title: Learning from Temporal Gradient for Semi-supervised Action Recognition
- Title(参考訳): 半教師あり行動認識のための時間勾配からの学習
- Authors: Junfei Xiao, Longlong Jing, Lin Zhang, Ju He, Qi She, Zongwei Zhou,
Alan Yuille, Yingwei Li
- Abstract要約: より注意的な特徴抽出のための追加のモダリティとして時間勾配を導入する。
提案手法は,3つのビデオ行動認識ベンチマークにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 15.45239134477737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised video action recognition tends to enable deep neural networks
to achieve remarkable performance even with very limited labeled data. However,
existing methods are mainly transferred from current image-based methods (e.g.,
FixMatch). Without specifically utilizing the temporal dynamics and inherent
multimodal attributes, their results could be suboptimal. To better leverage
the encoded temporal information in videos, we introduce temporal gradient as
an additional modality for more attentive feature extraction in this paper. To
be specific, our method explicitly distills the fine-grained motion
representations from temporal gradient (TG) and imposes consistency across
different modalities (i.e., RGB and TG). The performance of semi-supervised
action recognition is significantly improved without additional computation or
parameters during inference. Our method achieves the state-of-the-art
performance on three video action recognition benchmarks (i.e., Kinetics-400,
UCF-101, and HMDB-51) under several typical semi-supervised settings (i.e.,
different ratios of labeled data).
- Abstract(参考訳): 半教師付きビデオアクション認識は、非常に限定されたラベル付きデータでもディープニューラルネットワークが驚くべきパフォーマンスを達成できる傾向がある。
しかし、既存のメソッドは主に現在のイメージベースのメソッド(例えばfixmatch)から転送される。
時間的ダイナミクスと固有のマルチモーダル属性を特に活用しなければ、それらの結果は最適ではない。
本稿では,ビデオ中の時間情報をよりよく活用するために,より注意深い特徴抽出のための追加のモダリティとして時間勾配を導入する。
具体的には、時間勾配(TG)から微細な運動表現を明示的に蒸留し、異なるモード(RGBとTG)で整合性を付与する。
半教師付き動作認識の性能は、推論中に計算やパラメータを追加することなく大幅に向上する。
提案手法は,3つのビデオ行動認識ベンチマーク(Kinetics-400, UCF-101, HMDB-51)において,一般的な半教師付き設定(ラベル付きデータの異なる比率)下での最先端性能を実現する。
関連論文リスト
- Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - TimeBalance: Temporally-Invariant and Temporally-Distinctive Video
Representations for Semi-Supervised Action Recognition [68.53072549422775]
学生教師による半教師付き学習フレームワークTimeBalanceを提案する。
時間的に不変であり,時間的に異なる教師から知識を抽出する。
提案手法は,3つの動作認識ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-28T19:28:54Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Self-supervised Temporal Discriminative Learning for Video
Representation Learning [39.43942923911425]
注釈付き大規模ビデオアクションデータセットをトレーニングに使わずに、時間差分の特徴を抽出することは困難である。
本稿では,ビデオに基づく時間識別学習フレームワークを自己指導型で提案する。
論文 参考訳(メタデータ) (2020-08-05T13:36:59Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。