論文の概要: SWTF: Sparse Weighted Temporal Fusion for Drone-Based Activity
Recognition
- arxiv url: http://arxiv.org/abs/2211.05531v1
- Date: Thu, 10 Nov 2022 12:45:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 15:21:44.797776
- Title: SWTF: Sparse Weighted Temporal Fusion for Drone-Based Activity
Recognition
- Title(参考訳): SWTF:ドローンによる活動認識のための低重量時間核融合
- Authors: Santosh Kumar Yadav, Esha Pahwa, Achleshwar Luthra, Kamlesh Tiwari,
Hari Mohan Pandey, Peter Corcoran
- Abstract要約: ドローンカメラによる人間活動認識(HAR)はコンピュータビジョン研究コミュニティから大きな注目を集めている。
本稿では,スパース標本化ビデオフレームを利用する新しいSparse Weighted Temporal Fusion (SWTF) モジュールを提案する。
提案されたモデルでは、各データセットで72.76%、92.56%、78.86%の精度が得られた。
- 参考スコア(独自算出の注目度): 2.7677069267434873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Drone-camera based human activity recognition (HAR) has received significant
attention from the computer vision research community in the past few years. A
robust and efficient HAR system has a pivotal role in fields like video
surveillance, crowd behavior analysis, sports analysis, and human-computer
interaction. What makes it challenging are the complex poses, understanding
different viewpoints, and the environmental scenarios where the action is
taking place. To address such complexities, in this paper, we propose a novel
Sparse Weighted Temporal Fusion (SWTF) module to utilize sparsely sampled video
frames for obtaining global weighted temporal fusion outcome. The proposed SWTF
is divided into two components. First, a temporal segment network that sparsely
samples a given set of frames. Second, weighted temporal fusion, that
incorporates a fusion of feature maps derived from optical flow, with raw RGB
images. This is followed by base-network, which comprises a convolutional
neural network module along with fully connected layers that provide us with
activity recognition. The SWTF network can be used as a plug-in module to the
existing deep CNN architectures, for optimizing them to learn temporal
information by eliminating the need for a separate temporal stream. It has been
evaluated on three publicly available benchmark datasets, namely Okutama,
MOD20, and Drone-Action. The proposed model has received an accuracy of 72.76%,
92.56%, and 78.86% on the respective datasets thereby surpassing the previous
state-of-the-art performances by a significant margin.
- Abstract(参考訳): ドローンカメラによる人間活動認識(HAR)はここ数年,コンピュータビジョン研究コミュニティから注目されている。
堅牢で効率的なHARシステムは、ビデオ監視、群衆行動分析、スポーツ分析、人間とコンピュータの相互作用といった分野において重要な役割を果たす。
難しいのは、複雑なポーズ、異なる視点、そしてアクションが行われる環境シナリオを理解することです。
このような複雑さに対処するため,本稿では,疎サンプリングされたビデオフレームを用いてグローバルな重み付き時間融合結果を得る新しいSparse Weighted Temporal Fusion(SWTF)モジュールを提案する。
提案するSWTFは2つのコンポーネントに分けられる。
まず、与えられたフレームの集合をわずかにサンプリングする時間セグメントネットワーク。
第二に、光学フローから派生した特徴マップと生のRGB画像の融合を含む重み付き時間融合である。
続くベースネットワークは、畳み込みニューラルネットワークモジュールと、アクティビティ認識を提供する完全に接続されたレイヤで構成される。
SWTFネットワークは、既存の深層CNNアーキテクチャのプラグインモジュールとして使用することができ、個別の時間ストリームを不要にすることで、時間情報の学習を最適化することができる。
Okutama、MOD20、Drone-Actionという3つの公開ベンチマークデータセットで評価されている。
提案されたモデルは、それぞれのデータセットで72.76%、92.56%、78.86%の精度で、これまでの最先端のパフォーマンスをかなり上回っている。
関連論文リスト
- DroneAttention: Sparse Weighted Temporal Attention for Drone-Camera
Based Activity Recognition [2.705905918316948]
ドローン搭載カメラを用いた人間行動認識(HAR)は近年,コンピュータビジョン研究コミュニティから大きな関心を集めている。
本研究では, 疎サンプリングされたビデオフレームをグローバルに重み付けした時間的注意力を得るために, 新たにSparse Weighted Temporal Attention (SWTA) モジュールを提案する。
提案されたモデルでは、各データセットで72.76%、92.56%、78.86%の精度が得られた。
論文 参考訳(メタデータ) (2022-12-07T00:33:40Z) - FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial
Video Classification [49.06447472006251]
本稿では,FuTH-Netと呼ばれる新しいディープニューラルネットワークを提案する。
本モデルは,ERAとDrone-Actionの2つの航空映像分類データセットを用いて評価し,最先端の成果を得た。
論文 参考訳(メタデータ) (2022-09-22T21:15:58Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection [37.25262046781015]
アクション検出は不可欠で困難なタスクであり、特に未トリミングビデオの高密度にラベル付けされたデータセットに対してである。
本稿では,短期情報と長期情報の両方を効率的にキャプチャする行動検出のための新しいConvTransformerネットワークを提案する。
我々のネットワークは3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-12-07T18:57:37Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z) - Temporal Pyramid Network for Action Recognition [129.12076009042622]
本稿では,2次元あるいは3次元のバックボーンネットワークに柔軟に統合可能な汎用時間ピラミッドネットワーク(TPN)を提案する。
TPNは、いくつかのアクション認識データセット上で、他の困難なベースラインよりも一貫して改善されている。
論文 参考訳(メタデータ) (2020-04-07T17:17:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。