論文の概要: Slow-Fast Visual Tempo Learning for Video-based Action Recognition
- arxiv url: http://arxiv.org/abs/2202.12116v1
- Date: Thu, 24 Feb 2022 14:20:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 16:53:00.631043
- Title: Slow-Fast Visual Tempo Learning for Video-based Action Recognition
- Title(参考訳): 映像ベース行動認識のためのスローファストビジュアルテンポ学習
- Authors: Yuanzhong Liu, Zhigang Tu, Hongyan Li, Chi Chen, Baoxin Li, Junsong
Yuan
- Abstract要約: アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
- 参考スコア(独自算出の注目度): 78.3820439082979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action visual tempo characterizes the dynamics and the temporal scale of an
action, which is helpful to distinguish human actions that share high
similarities in visual dynamics and appearance. Previous methods capture the
visual tempo either by sampling raw videos with multiple rates, which requires
a costly multi-layer network to handle each rate, or by hierarchically sampling
backbone features, which relies heavily on high-level features that miss
fine-grained temporal dynamics. In this work, we propose a Temporal Correlation
Module (TCM), which can be easily embedded into the current action recognition
backbones in a plug-in-and-play manner, to extract action visual tempo from
low-level backbone features at single-layer remarkably. Specifically, our TCM
contains two main components: a Multi-scale Temporal Dynamics Module (MTDM) and
a Temporal Attention Module (TAM). MTDM applies a correlation operation to
learn pixel-wise fine-grained temporal dynamics for both fast-tempo and
slow-tempo. TAM adaptively emphasizes expressive features and suppresses
inessential ones via analyzing the global information across various tempos.
Extensive experiments conducted on several action recognition benchmarks, e.g.
Something-Something V1 & V2, Kinetics-400, UCF-101, and HMDB-51, have
demonstrated that the proposed TCM is effective to promote the performance of
the existing video-based action recognition models for a large margin. The
source code is publicly released at https://github.com/zphyix/TCM.
- Abstract(参考訳): アクションビジュアルテンポは、アクションのダイナミクスと時間スケールを特徴付けており、視覚のダイナミクスと外観に高い類似性を持つヒューマンアクションを区別するのに役立ちます。
従来の方法では、複数のレートで生ビデオのサンプリングを行うか、各レートを処理するためにコストのかかる多層ネットワークを必要とするか、階層的なバックボーン機能のサンプリングを行うかのいずれかによって、視覚的テンポをキャプチャする。
本研究では,プラグイン・アンド・プレイ方式で現在の動作認識バックボーンに容易に組み込むことができ,低レベルなバックボーン特徴から1層で動作視覚的テンポを抽出できる時間相関モジュール(TCM)を提案する。
具体的には,MTDM (Multi-scale Temporal Dynamics Module) とTAM (Temporal Attention Module) の2つのコンポーネントを含む。
MTDMは, 高速テンポとスローテンポの双方に対して, ピクセルワイド微粒時間ダイナミクスを学習するための相関演算を適用した。
tamは表現的特徴を適応的に強調し、様々なテンポのグローバル情報を分析することによって本質的特徴を抑制する。
いくつかのアクション認識ベンチマーク(例えば、Something V1 & V2, Kinetics-400, UCF-101, HMDB-51)において、提案したTCMが既存のビデオベースのアクション認識モデルの性能向上に有効であることを実証した。
ソースコードはhttps://github.com/zphyix/TCMで公開されている。
関連論文リスト
- DyFADet: Dynamic Feature Aggregation for Temporal Action Detection [70.37707797523723]
カーネル重みと受容フィールドを異なるタイムスタンプで適応できる新しい動的特徴集約(DFA)モジュールを構築した。
DFAを使用することで動的DADヘッド(DyHead)の開発を支援し、パラメータを調整したマルチスケール機能を適応的に集約する。
新しい動的TADモデルであるDyFADetは、一連の挑戦的なTADベンチマークで有望なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-03T15:29:10Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection [37.25262046781015]
アクション検出は不可欠で困難なタスクであり、特に未トリミングビデオの高密度にラベル付けされたデータセットに対してである。
本稿では,短期情報と長期情報の両方を効率的にキャプチャする行動検出のための新しいConvTransformerネットワークを提案する。
我々のネットワークは3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-12-07T18:57:37Z) - Learning from Temporal Gradient for Semi-supervised Action Recognition [15.45239134477737]
より注意的な特徴抽出のための追加のモダリティとして時間勾配を導入する。
提案手法は,3つのビデオ行動認識ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-11-25T20:30:30Z) - TSI: Temporal Saliency Integration for Video Action Recognition [32.18535820790586]
本稿では,SME(Salient Motion Excitation)モジュールとCTI(Cross-scale Temporal Integration)モジュールを主成分とするTSI(Temporal Saliency Integration)ブロックを提案する。
SMEは、局所的な動きモデリングを通して、動きに敏感な領域を強調することを目的としている。
CTIは、それぞれ別々の1D畳み込みの群を通じて、マルチスケールの時間的モデリングを実行するように設計されている。
論文 参考訳(メタデータ) (2021-06-02T11:43:49Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z) - Temporal Pyramid Network for Action Recognition [129.12076009042622]
本稿では,2次元あるいは3次元のバックボーンネットワークに柔軟に統合可能な汎用時間ピラミッドネットワーク(TPN)を提案する。
TPNは、いくつかのアクション認識データセット上で、他の困難なベースラインよりも一貫して改善されている。
論文 参考訳(メタデータ) (2020-04-07T17:17:23Z) - TEA: Temporal Excitation and Aggregation for Action Recognition [31.076707274791957]
本稿では,動作励起モジュールと複数時間集約モジュールを含む時間的励起・集約ブロックを提案する。
短距離モーションモデリングでは、MEモジュールは時間的特徴から特徴レベルの時間的差を計算する。
MTAモジュールは局所的な畳み込みを部分畳み込みのグループに変形させ、階層的残差アーキテクチャを形成することを提案している。
論文 参考訳(メタデータ) (2020-04-03T06:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。