論文の概要: Event and Activity Recognition in Video Surveillance for Cyber-Physical
Systems
- arxiv url: http://arxiv.org/abs/2111.02064v1
- Date: Wed, 3 Nov 2021 08:30:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 13:13:06.816490
- Title: Event and Activity Recognition in Video Surveillance for Cyber-Physical
Systems
- Title(参考訳): サイバー物理システムのためのビデオサーベイランスにおけるイベントとアクティビティ認識
- Authors: Swarnabja Bhaumik, Prithwish Jana and Partha Pratim Mohanta
- Abstract要約: 長期動作パターンは、イベントを認識するタスクにおいて、それ自体が重要な役割を果たす。
本研究では,イベント認識作業において,長期動作パターンのみが重要な役割を担っていることを示す。
時間的特徴のみをハイブリッド畳み込みニューラルネットワーク(CNN)+リカレントニューラルネットワーク(RNN)アーキテクチャで活用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This chapter aims to aid the development of Cyber-Physical Systems (CPS) in
automated understanding of events and activities in various applications of
video-surveillance. These events are mostly captured by drones, CCTVs or novice
and unskilled individuals on low-end devices. Being unconstrained, these videos
are immensely challenging due to a number of quality factors. We present an
extensive account of the various approaches taken to solve the problem over the
years. This ranges from methods as early as Structure from Motion (SFM) based
approaches to recent solution frameworks involving deep neural networks. We
show that the long-term motion patterns alone play a pivotal role in the task
of recognizing an event. Consequently each video is significantly represented
by a fixed number of key-frames using a graph-based approach. Only the temporal
features are exploited using a hybrid Convolutional Neural Network (CNN) +
Recurrent Neural Network (RNN) architecture. The results we obtain are
encouraging as they outperform standard temporal CNNs and are at par with those
using spatial information along with motion cues. Further exploring multistream
models, we conceive a multi-tier fusion strategy for the spatial and temporal
wings of a network. A consolidated representation of the respective individual
prediction vectors on video and frame levels is obtained using a biased
conflation technique. The fusion strategy endows us with greater rise in
precision on each stage as compared to the state-of-the-art methods, and thus a
powerful consensus is achieved in classification. Results are recorded on four
benchmark datasets widely used in the domain of action recognition, namely CCV,
HMDB, UCF-101 and KCV. It is inferable that focusing on better classification
of the video sequences certainly leads to robust actuation of a system designed
for event surveillance and object cum activity tracking.
- Abstract(参考訳): 本章は,映像サーベイランスの各種応用における事象や活動の自動理解におけるサイバー物理システム(CPS)の開発を支援することを目的としている。
これらのイベントは、主にドローンやcctv、初心者や未熟な個人がローエンドデバイスで捉えている。
制限がないので、これらのビデオは多くの品質要因のために非常に難しい。
この問題を長年にわたって解決してきた様々なアプローチについて概説する。
これは、早期にStructure from Motion (SFM)ベースのアプローチから、ディープニューラルネットワークを含む最近のソリューションフレームワークまで、幅広い。
イベント認識において,長期動作パターンのみが重要な役割を担っていることを示す。
したがって、各ビデオはグラフベースのアプローチで固定数のキーフレームで表現される。
時間的特徴のみが、ハイブリッド畳み込みニューラルネットワーク(cnn)+リカレントニューラルネットワーク(rnn)アーキテクチャを使用して悪用される。
得られた結果は,標準的な時間的CNNよりも優れており,動きの手がかりとともに空間情報を用いた結果と同等である。
さらにマルチストリームモデルを探索し,ネットワークの空間的および時間的翼に対する多層融合戦略を考察する。
ビデオおよびフレームレベルでの個々の予測ベクトルの集約表現は、バイアスド・フレレーション法を用いて得られる。
融合戦略は,最先端の手法に比べて各段階の精度が向上し,分類において強力なコンセンサスが達成される。
結果は、CCV、HMDB、UCF-101、KCVというアクション認識領域で広く使われている4つのベンチマークデータセットに記録される。
ビデオシーケンスのより優れた分類に注目すると、イベント監視とオブジェクトcumアクティビティトラッキング用に設計されたシステムのロバストなアクティベーションに確実につながります。
関連論文リスト
- Hypergraph-based Multi-View Action Recognition using Event Cameras [20.965606424362726]
マルチビューイベントベースのアクション認識フレームワークであるHyperMVを紹介する。
我々は6つの視点から50のアクションからなる、最も大きなマルチビューイベントベースのアクションデータセットである$textTHUtextMV-EACTtext-50$を提示する。
実験の結果,HyperMVはクロスオブジェクトとクロスビューの両方のシナリオにおいて,ベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-03-28T11:17:00Z) - Co-attention Propagation Network for Zero-Shot Video Object Segmentation [91.71692262860323]
ゼロショットオブジェクトセグメンテーション(ZS-VOS)は、これらのオブジェクトを事前に知ることなく、ビデオシーケンス内のオブジェクトをセグメンテーションすることを目的としている。
既存のZS-VOSメソッドは、しばしば前景と背景を区別したり、複雑なシナリオで前景を追跡するのに苦労する。
本稿では,オブジェクトの追跡とセグメンテーションが可能なエンコーダデコーダに基づく階層的コアテンション伝搬ネットワーク(HCPN)を提案する。
論文 参考訳(メタデータ) (2023-04-08T04:45:48Z) - Analysis of Real-Time Hostile Activitiy Detection from Spatiotemporal
Features Using Time Distributed Deep CNNs, RNNs and Attention-Based
Mechanisms [0.0]
CCTVカメラシステムによるリアルタイムビデオ監視は、公共の安全を確保するために欠かせないものとなっている。
ディープラーニングビデオ分類技術は、監視システムを自動化して暴力を検知するのに役立ちます。
論文 参考訳(メタデータ) (2023-02-21T22:02:39Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Unsupervised Video Summarization with a Convolutional Attentive
Adversarial Network [32.90753137435032]
我々は,教師なしの方法で深層要約器を構築するために,畳み込み型敵ネットワーク(CAAN)を提案する。
具体的には、ビデオのグローバルな表現を抽出する完全畳み込みシーケンスネットワークと、正規化された重要度スコアを出力する注目ベースのネットワークを用いる。
その結果,提案手法の他の非教師なし手法に対する優位性を示した。
論文 参考訳(メタデータ) (2021-05-24T07:24:39Z) - Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-16T12:22:08Z) - Complex Human Action Recognition in Live Videos Using Hybrid FR-DL
Method [1.027974860479791]
入力シーケンス中の代表フレームの自動選択により,前処理フェーズの課題に対処する。
本稿では,バックグラウンドサブトラクションとHOGを用いたハイブリッド手法を提案し,続いて深層ニューラルネットワークと骨格モデリング手法を適用した。
本稿では,このモデルをFR-DL(Feature Reduction & Deep Learning based action recognition method)と呼ぶ。
論文 参考訳(メタデータ) (2020-07-06T15:12:50Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - Hierarchical Attention Network for Action Segmentation [45.19890687786009]
イベントの時間的セグメンテーションは、ビデオにおける人間の行動の自動認識のための重要なタスクであり、前駆体である。
我々は、時間とともに行動間の関係をよりよく学習できる、エンドツーエンドの教師あり学習手法を提案する。
我々は,MERLショッピング,50サラダ,ジョージア技術エゴセントリックデータセットなど,公開ベンチマークデータセットの課題を評価する。
論文 参考訳(メタデータ) (2020-05-07T02:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。