論文の概要: Learn to cycle: Time-consistent feature discovery for action recognition
- arxiv url: http://arxiv.org/abs/2006.08247v2
- Date: Tue, 23 Jun 2020 14:06:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 04:25:34.696836
- Title: Learn to cycle: Time-consistent feature discovery for action recognition
- Title(参考訳): learn to cycle: 行動認識のための時間一貫性のある特徴発見
- Authors: Alexandros Stergiou and Ronald Poppe
- Abstract要約: 時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
- 参考スコア(独自算出の注目度): 83.43682368129072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizing over temporal variations is a prerequisite for effective action
recognition in videos. Despite significant advances in deep neural networks, it
remains a challenge to focus on short-term discriminative motions in relation
to the overall performance of an action. We address this challenge by allowing
some flexibility in discovering relevant spatio-temporal features. We introduce
Squeeze and Recursion Temporal Gates (SRTG), an approach that favors inputs
with similar activations with potential temporal variations. We implement this
idea with a novel CNN block that uses an LSTM to encapsulate feature dynamics,
in conjunction with a temporal gate that is responsible for evaluating the
consistency of the discovered dynamics and the modeled features. We show
consistent improvement when using SRTG blocks, with only a minimal increase in
the number of GFLOPs. On Kinetics-700, we perform on par with current
state-of-the-art models, and outperform these on HACS, Moments in Time, UCF-101
and HMDB-51.
- Abstract(参考訳): 時間変化を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
ディープニューラルネットワークの大幅な進歩にもかかわらず、アクションの全体的なパフォーマンスに関連して、短期的な識別動作に重点を置くことは依然として課題である。
我々は、関連する時空間的特徴の発見に柔軟性を持たせることで、この課題に対処します。
Squeeze and Recursion Temporal Gates (SRTG) を導入し, 時間的変動の可能性のある同様のアクティベーションを持つ入力を優先する手法を提案する。
我々は、LSTMを用いて特徴ダイナミクスをカプセル化する新しいCNNブロックと、発見されたダイナミクスとモデル化された特徴の一貫性を評価するための時間ゲートとを併用して、このアイデアを実装した。
SRTGブロックを使用する場合,GFLOPの数は最小限に抑えられ,一貫した改善が見られた。
Kinetics-700では、現在の最先端モデルと同等に動作し、HACS、Moments in Time、UCF-101、HMDB-51で性能を上回ります。
関連論文リスト
- ARN-LSTM: A Multi-Stream Attention-Based Model for Action Recognition with Temporal Dynamics [6.6713480895907855]
ARN-LSTMは、アクションシーケンスにおける空間的動きと時間的ダイナミクスを同時にキャプチャする課題に対処するために設計された、新しい行動認識モデルである。
提案モデルでは, 複数ストリーム融合アーキテクチャを用いて, 関節, 動き, 時間情報を統合する。
論文 参考訳(メタデータ) (2024-11-04T03:29:51Z) - DyFADet: Dynamic Feature Aggregation for Temporal Action Detection [70.37707797523723]
カーネル重みと受容フィールドを異なるタイムスタンプで適応できる新しい動的特徴集約(DFA)モジュールを構築した。
DFAを使用することで動的DADヘッド(DyHead)の開発を支援し、パラメータを調整したマルチスケール機能を適応的に集約する。
新しい動的TADモデルであるDyFADetは、一連の挑戦的なTADベンチマークで有望なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-03T15:29:10Z) - Ultra-low Latency Spiking Neural Networks with Spatio-Temporal
Compression and Synaptic Convolutional Block [4.081968050250324]
スパイキングニューラルネットワーク(SNN)は、神経時間情報能力、低処理機能、高い生物学的妥当性を有する。
Neuro-MNIST、CIFAR10-S、DVS128ジェスチャデータセットは、個々のイベントをフレームに集約し、イベントストリーム分類の時間分解能を高める必要がある。
本研究では,NIST電流の時間ステップに個々のイベントを集約し,トレーニングや推論の遅延を低減する処理時間圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-03-18T15:14:13Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - TSI: Temporal Saliency Integration for Video Action Recognition [32.18535820790586]
本稿では,SME(Salient Motion Excitation)モジュールとCTI(Cross-scale Temporal Integration)モジュールを主成分とするTSI(Temporal Saliency Integration)ブロックを提案する。
SMEは、局所的な動きモデリングを通して、動きに敏感な領域を強調することを目的としている。
CTIは、それぞれ別々の1D畳み込みの群を通じて、マルチスケールの時間的モデリングを実行するように設計されている。
論文 参考訳(メタデータ) (2021-06-02T11:43:49Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。