論文の概要: DroneAttention: Sparse Weighted Temporal Attention for Drone-Camera
Based Activity Recognition
- arxiv url: http://arxiv.org/abs/2212.03384v1
- Date: Wed, 7 Dec 2022 00:33:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 16:17:23.174583
- Title: DroneAttention: Sparse Weighted Temporal Attention for Drone-Camera
Based Activity Recognition
- Title(参考訳): Drone Atttention: ドローンカメラによる活動認識のための疎重時間アテンション
- Authors: Santosh Kumar Yadav, Achleshwar Luthra, Esha Pahwa, Kamlesh Tiwari,
Heena Rathore, Hari Mohan Pandey, Peter Corcoran
- Abstract要約: ドローン搭載カメラを用いた人間行動認識(HAR)は近年,コンピュータビジョン研究コミュニティから大きな関心を集めている。
本研究では, 疎サンプリングされたビデオフレームをグローバルに重み付けした時間的注意力を得るために, 新たにSparse Weighted Temporal Attention (SWTA) モジュールを提案する。
提案されたモデルでは、各データセットで72.76%、92.56%、78.86%の精度が得られた。
- 参考スコア(独自算出の注目度): 2.705905918316948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human activity recognition (HAR) using drone-mounted cameras has attracted
considerable interest from the computer vision research community in recent
years. A robust and efficient HAR system has a pivotal role in fields like
video surveillance, crowd behavior analysis, sports analysis, and
human-computer interaction. What makes it challenging are the complex poses,
understanding different viewpoints, and the environmental scenarios where the
action is taking place. To address such complexities, in this paper, we propose
a novel Sparse Weighted Temporal Attention (SWTA) module to utilize sparsely
sampled video frames for obtaining global weighted temporal attention. The
proposed SWTA is comprised of two parts. First, temporal segment network that
sparsely samples a given set of frames. Second, weighted temporal attention,
which incorporates a fusion of attention maps derived from optical flow, with
raw RGB images. This is followed by a basenet network, which comprises a
convolutional neural network (CNN) module along with fully connected layers
that provide us with activity recognition. The SWTA network can be used as a
plug-in module to the existing deep CNN architectures, for optimizing them to
learn temporal information by eliminating the need for a separate temporal
stream. It has been evaluated on three publicly available benchmark datasets,
namely Okutama, MOD20, and Drone-Action. The proposed model has received an
accuracy of 72.76%, 92.56%, and 78.86% on the respective datasets thereby
surpassing the previous state-of-the-art performances by a margin of 25.26%,
18.56%, and 2.94%, respectively.
- Abstract(参考訳): ドローン搭載カメラを用いた人間行動認識(HAR)は近年,コンピュータビジョン研究コミュニティから大きな関心を集めている。
堅牢で効率的なHARシステムは、ビデオ監視、群衆行動分析、スポーツ分析、人間とコンピュータの相互作用といった分野において重要な役割を果たす。
難しいのは、複雑なポーズ、異なる視点、そしてアクションが行われる環境シナリオを理解することです。
このような複雑さに対処するため、本稿では、疎サンプリングされたビデオフレームをグローバルに重み付けされた時間的注意を得るために利用する、スパース重み付き時間的注意(SWTA)モジュールを提案する。
提案するswatは2つの部分からなる。
まず、与えられたフレームの集合をわずかにサンプリングする時間セグメントネットワーク。
第二に、光学的流れから導かれる注目マップと生のRGB画像との融合を含む重み付き時間的注意。
続くベースネットネットワークは、畳み込みニューラルネットワーク(CNN)モジュールと、アクティビティ認識を提供する完全に接続されたレイヤで構成される。
SWTAネットワークは、既存の深層CNNアーキテクチャのプラグインモジュールとして使用することができ、個別の時間ストリームを不要にすることで、時間情報の学習を最適化することができる。
Okutama、MOD20、Drone-Actionという3つの公開ベンチマークデータセットで評価されている。
提案モデルの精度は72.76%, 92.56%, 78.86%であり, 従来の性能を25.26%, 18.56%, 2.94%で上回っている。
関連論文リスト
- Temporal-Spatial Processing of Event Camera Data via Delay-Loop Reservoir Neural Network [0.11309478649967238]
遅延ループ貯水池ニューラルネットを用いたビデオ処理の先行研究を動機とする予測について検討した。
本稿では,この新たな発見を利用して,イベントカメラ分類のための遅延ループ貯水池ニューラルネットワークの設計をガイドする。
論文 参考訳(メタデータ) (2024-02-12T16:24:13Z) - SWTF: Sparse Weighted Temporal Fusion for Drone-Based Activity
Recognition [2.7677069267434873]
ドローンカメラによる人間活動認識(HAR)はコンピュータビジョン研究コミュニティから大きな注目を集めている。
本稿では,スパース標本化ビデオフレームを利用する新しいSparse Weighted Temporal Fusion (SWTF) モジュールを提案する。
提案されたモデルでは、各データセットで72.76%、92.56%、78.86%の精度が得られた。
論文 参考訳(メタデータ) (2022-11-10T12:45:43Z) - FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial
Video Classification [49.06447472006251]
本稿では,FuTH-Netと呼ばれる新しいディープニューラルネットワークを提案する。
本モデルは,ERAとDrone-Actionの2つの航空映像分類データセットを用いて評価し,最先端の成果を得た。
論文 参考訳(メタデータ) (2022-09-22T21:15:58Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - Detection, Tracking, and Counting Meets Drones in Crowds: A Benchmark [97.07865343576361]
DroneCrowdという新しいドローンキャプチャ型大規模データセットによるベンチマークを構築した。
私たちは4800万人の頭といくつかのビデオレベルの属性を持つ20,800人のトラジェクタに注釈を付けます。
我々は、密集した群衆の物体の検出、追跡、数え上げを行うための強力なベースラインとして、Space-Time Neighbor-Aware Network (STNNet)を設計する。
論文 参考訳(メタデータ) (2021-05-06T04:46:14Z) - ACDnet: An action detection network for real-time edge computing based
on flow-guided feature approximation and memory aggregation [8.013823319651395]
ACDnetは、リアルタイムエッジコンピューティングをターゲットとしたコンパクトなアクション検出ネットワークです。
連続するビデオフレーム間の時間的コヒーレンスを利用してCNNの特徴を近似する。
リアルタイム(75FPS)よりはるかに高い精度で検出できる。
論文 参考訳(メタデータ) (2021-02-26T14:06:31Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Fast Motion Understanding with Spatiotemporal Neural Networks and
Dynamic Vision Sensors [99.94079901071163]
本稿では,高速な動きを推論するための動的視覚センサ(DVS)システムを提案する。
ロボットが15m/s以上の速度で接近する小さな物体に反応するケースを考察する。
我々は,23.4m/sで24.73degの誤差を$theta$,18.4mmの平均離散半径予測誤差,衝突予測誤差に対する25.03%の中央値で移動した玩具ダートについて,本システムの結果を強調した。
論文 参考訳(メタデータ) (2020-11-18T17:55:07Z) - PIDNet: An Efficient Network for Dynamic Pedestrian Intrusion Detection [22.316826418265666]
移動カメラによって歩行者が関心領域(AoI)を侵入するかどうかを判断する視覚に基づく動的歩行者侵入検知(PID)は,モバイル監視において重要な課題である。
本稿では,この問題を解決するために,新しい,効率的なマルチタスクディープニューラルネットワークPIDNetを提案する。
PIDNetは、移動カメラが捉えたビデオフレームから動的に変化するAoIを正確にセグメンテーションし、生成されたAoI含有領域から歩行者を素早く検出する2つの要因を考慮して設計されている。
論文 参考訳(メタデータ) (2020-09-01T09:34:43Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。