論文の概要: Time and Frequency Network for Human Action Detection in Videos
- arxiv url: http://arxiv.org/abs/2103.04680v1
- Date: Mon, 8 Mar 2021 11:42:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:33:35.165300
- Title: Time and Frequency Network for Human Action Detection in Videos
- Title(参考訳): 映像中の人間の行動検出のための時間と周波数ネットワーク
- Authors: Changhai Li, Huawei Chen, Jingqing Lu, Yang Huang and Yingying Liu
- Abstract要約: TFNetという,時刻と周波数を同時に考慮したエンドツーエンドネットワークを提案する。
動作パターンを得るには、これら2つの特徴を注目機構の下で深く融合させる。
- 参考スコア(独自算出の注目度): 6.78349879472022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, spatiotemporal features are embraced by most deep learning
approaches for human action detection in videos, however, they neglect the
important features in frequency domain. In this work, we propose an end-to-end
network that considers the time and frequency features simultaneously, named
TFNet. TFNet holds two branches, one is time branch formed of three-dimensional
convolutional neural network(3D-CNN), which takes the image sequence as input
to extract time features; and the other is frequency branch, extracting
frequency features through two-dimensional convolutional neural network(2D-CNN)
from DCT coefficients. Finally, to obtain the action patterns, these two
features are deeply fused under the attention mechanism. Experimental results
on the JHMDB51-21 and UCF101-24 datasets demonstrate that our approach achieves
remarkable performance for frame-mAP.
- Abstract(参考訳): 現在、時間的特徴はビデオの人間の行動検出のためのほとんどのディープラーニングアプローチによって受け入れられていますが、周波数領域の重要な特徴を無視します。
本研究では,TFNetと呼ばれる時間特性と周波数特性を同時に考慮したエンドツーエンドネットワークを提案する。
TFNetは、DCT係数から2次元畳み込みニューラルネットワーク(2D-CNN)を介して周波数特性を抽出する周波数分岐であり、画像シーケンスを入力として取り出す3次元畳み込みニューラルネットワーク(3D-CNN)からなる時間分岐である。
最後に、これらの2つの特徴を注目機構の下で深く融合させる。
JHMDB51-21 および UCF101-24 データセットの実験結果から,本手法がフレーム mAP の顕著な性能を達成できることが示された。
関連論文リスト
- 2D bidirectional gated recurrent unit convolutional Neural networks for end-to-end violence detection In videos [0.0]
本稿では,双方向Gated Recurrent Unit (BiGRU) と2次元畳み込みニューラルネットワーク (CNN) を組み合わせて,ビデオシーケンス中の暴力を検出するアーキテクチャを提案する。
CNNは各フレームから空間特性を抽出し、BiGRUは複数のフレームからCNN抽出特徴を用いて時間的および局所的な運動特性を抽出する。
論文 参考訳(メタデータ) (2024-09-11T19:36:12Z) - EPAM-Net: An Efficient Pose-driven Attention-guided Multimodal Network for Video Action Recognition [0.0]
本稿では,ビデオにおける行動認識のための効果的なポーズ駆動型注意誘導型マルチモーダル行動認識(EPAM-Net)を提案する。
具体的には、RGBビデオとそのスケルトンシーケンスから、ポーズストリームとネットワーク時間特徴の両方にX3Dネットワークを適用した。
我々のモデルはFLOPの6.2-9.9-x削減(浮動小数点演算、乗算加算数)とネットワークパラメータの9-9.6倍削減を提供する。
論文 参考訳(メタデータ) (2024-08-10T03:15:24Z) - Time-space-frequency feature Fusion for 3-channel motor imagery
classification [0.0]
本研究では,時間空間の周波数を考慮した新しいネットワークアーキテクチャであるTSFF-Netを紹介する。
TSFF-Netは、時間周波数表現、時間周波数特徴抽出、時間空間特徴抽出、特徴融合と分類の4つの主要コンポーネントから構成される。
実験により、TSFF-Netは、脳波復号法における単一モード特徴抽出ネットワークの欠点を補うだけでなく、他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-04-04T02:01:48Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - STSM: Spatio-Temporal Shift Module for Efficient Action Recognition [4.096670184726871]
本稿では,有効かつ高性能な時空間シフトモジュール(STSM)を提案する。
特に、ネットワークが2次元CNNである場合、STSMモジュールはネットワークが効率的な時空間的特徴を学習できるようにする。
論文 参考訳(メタデータ) (2021-12-05T09:40:49Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Temporal Pyramid Network for Action Recognition [129.12076009042622]
本稿では,2次元あるいは3次元のバックボーンネットワークに柔軟に統合可能な汎用時間ピラミッドネットワーク(TPN)を提案する。
TPNは、いくつかのアクション認識データセット上で、他の困難なベースラインよりも一貫して改善されている。
論文 参考訳(メタデータ) (2020-04-07T17:17:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。