論文の概要: Real-World Graph Convolution Networks (RW-GCNs) for Action Recognition
in Smart Video Surveillance
- arxiv url: http://arxiv.org/abs/2201.05739v1
- Date: Sat, 15 Jan 2022 02:29:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-22 15:53:10.337628
- Title: Real-World Graph Convolution Networks (RW-GCNs) for Action Recognition
in Smart Video Surveillance
- Title(参考訳): スマートビデオサーベイランスにおける行動認識のための実世界グラフ畳み込みネットワーク(RW-GCN)
- Authors: Justin Sanchez, Christopher Neff, Hamed Tabkhi
- Abstract要約: アクション認識は、最先端のスマートビデオ監視およびセキュリティシステムにおいて重要なアルゴリズム部分である。
本稿では,Real World SkeletonベースのAction Recognitionの領域制約を満たすために,Real-World Graph Convolution Networks(RW-GCNs)を提案する。
RW-GCNは、既存の最先端(SotA)空間時間グラフ畳み込みネットワークにおける注意的フィードバックの増大を利用する。
- 参考スコア(独自算出の注目度): 3.2872586139884623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Action recognition is a key algorithmic part of emerging on-the-edge smart
video surveillance and security systems. Skeleton-based action recognition is
an attractive approach which, instead of using RGB pixel data, relies on human
pose information to classify appropriate actions. However, existing algorithms
often assume ideal conditions that are not representative of real-world
limitations, such as noisy input, latency requirements, and edge resource
constraints.
To address the limitations of existing approaches, this paper presents
Real-World Graph Convolution Networks (RW-GCNs), an architecture-level solution
for meeting the domain constraints of Real World Skeleton-based Action
Recognition. Inspired by the presence of feedback connections in the human
visual cortex, RW-GCNs leverage attentive feedback augmentation on existing
near state-of-the-art (SotA) Spatial-Temporal Graph Convolution Networks
(ST-GCNs). The ST-GCNs' design choices are derived from information
theory-centric principles to address both the spatial and temporal noise
typically encountered in end-to-end real-time and on-the-edge smart video
systems. Our results demonstrate RW-GCNs' ability to serve these applications
by achieving a new SotA accuracy on the NTU-RGB-D-120 dataset at 94.1%, and
achieving 32X less latency than baseline ST-GCN applications while still
achieving 90.4% accuracy on the Northwestern UCLA dataset in the presence of
spatial keypoint noise. RW-GCNs further show system scalability by running on
the 10X cost effective NVIDIA Jetson Nano (as opposed to NVIDIA Xavier NX),
while still maintaining a respectful range of throughput (15.6 to 5.5 Actions
per Second) on the resource constrained device. The code is available here:
https://github.com/TeCSAR-UNCC/RW-GCN.
- Abstract(参考訳): アクション認識は、最先端のスマートビデオ監視およびセキュリティシステムの重要なアルゴリズム的部分である。
スケルトンベースのアクション認識は、rgbのピクセルデータを使う代わりに、適切なアクションを分類するために人間のポーズ情報に依存する魅力的なアプローチである。
しかし、既存のアルゴリズムは、ノイズ入力、レイテンシ要件、エッジリソース制約など、現実世界の制約を代表しない理想的な条件を仮定することが多い。
本稿では,Real World SkeletonベースのAction Recognitionのドメイン制約を満たすアーキテクチャレベルのソリューションであるReal-World Graph Convolution Networks (RW-GCNs)を提案する。
RW-GCNは、人間の視覚皮質におけるフィードバック接続の存在にインスパイアされ、既存のSpatial-Temporal Graph Convolution Networks (ST-GCNs)における注意的フィードバックの増大を利用する。
ST-GCNの設計選択は、エンド・ツー・エンドのリアルタイムとオン・ザ・エッジのスマートビデオシステムで通常発生する空間的ノイズと時間的ノイズの両方に対処する情報理論中心の原理から導かれる。
以上の結果から,NTU-RGB-D-120データセットに新たなSotA精度を94.1%で達成し,標準ST-GCNアプリケーションよりも32倍のレイテンシを実現するとともに,北西UCLAデータセットでは90.4%の精度を実現した。
さらにRW-GCNは10倍のコストでNVIDIA Jetson Nano(NVIDIA Xavier NXとは対照的に)を動作させることでシステムのスケーラビリティを示す一方で、リソース制約されたデバイス上では高いスループット(毎秒15.6~5.5アクション)を維持している。
コードは、https://github.com/TeCSAR-UNCC/RW-GCN.comで入手できる。
関連論文リスト
- Point Cloud Denoising With Fine-Granularity Dynamic Graph Convolutional Networks [58.050130177241186]
ノイズの摂動は、しばしば3次元の点雲を破損させ、表面の再構成、レンダリング、さらなる処理といった下流のタスクを妨げる。
本稿では,GDGCNと呼ばれる粒度動的グラフ畳み込みネットワークについて紹介する。
論文 参考訳(メタデータ) (2024-11-21T14:19:32Z) - Joint Admission Control and Resource Allocation of Virtual Network Embedding via Hierarchical Deep Reinforcement Learning [69.00997996453842]
本稿では,仮想ネットワークの埋め込みにおいて,入出力制御と資源配分を併用して学習する深層強化学習手法を提案する。
HRL-ACRAは,受入率と長期平均収益の両面で,最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-25T07:42:30Z) - GCN-DevLSTM: Path Development for Skeleton-Based Action Recognition [10.562869805151411]
ビデオにおける骨格に基づく行動認識は、コンピュータビジョンにおいて重要であるが難しい課題である。
本稿では,リー群構造を利用した逐次データ表現法を提案する。
提案するGCN-DevLSTMネットワークは,強いGCNベースラインモデルの改良を一貫して行い,SARタスクの堅牢性に優れたSOTA結果が得られる。
論文 参考訳(メタデータ) (2024-03-22T13:55:52Z) - NAC-TCN: Temporal Convolutional Networks with Causal Dilated
Neighborhood Attention for Emotion Understanding [60.74434735079253]
畳み込みTCN(NAC-TCN)を用いた近傍注意法を提案する。
これを実現するために、Dilated Neighborhood Attentionの因果バージョンを導入し、畳み込みを組み込んだ。
我々のモデルは、標準的な感情認識データセットに少ないパラメータを必要としながら、TCN、TCL、LSTM、GRUに匹敵する、より優れた、あるいは最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-12T18:41:30Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Multi-Dimensional Refinement Graph Convolutional Network with Robust
Decouple Loss for Fine-Grained Skeleton-Based Action Recognition [19.031036881780107]
本稿では,CVSTA(Channel-Variable Space-Temporal Attention)と呼ばれるフレキシブルアテンションブロックを提案する。
CVSTAに基づくMDR-GCN(Multi-dimensional Refinement Graph Convolutional Network)を構築し,チャネルレベル,ジョイントレベル,フレームレベルの特徴の識別を改善する。
さらに,CVSTAの効果を著しく向上し,騒音の影響を低減させるロバスト・デデュプル・ロス(RDL)を提案する。
論文 参考訳(メタデータ) (2023-06-27T09:23:36Z) - Continual Spatio-Temporal Graph Convolutional Networks [87.86552250152872]
時空間グラフ畳み込みニューラルネットワークを連続推論ネットワークとして再構成する。
オンライン推論において、最大109倍の時間複雑性、26倍のハードウェアアクセラレーション、最大割り当てメモリの最大52%の削減を観測した。
論文 参考訳(メタデータ) (2022-03-21T14:23:18Z) - Zero-bias Deep Neural Network for Quickest RF Signal Surveillance [14.804498377638696]
モノのインターネット(IoT)は、十分な数のRFデバイスがRFチャネルを介して情報を接続し、共有できるようにすることによって、現代社会を再構築している。
本稿ではRF信号監視のためのディープラーニングフレームワークを提供する。
我々は、Deep Neural Networks(DNN)とQuickest Detection(QD)を統合して、シーケンシャルな信号監視スキームを形成する。
論文 参考訳(メタデータ) (2021-10-12T07:48:57Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - HyNNA: Improved Performance for Neuromorphic Vision Sensor based
Surveillance using Hybrid Neural Network Architecture [7.293414498855147]
領域提案のための形態素画像処理アルゴリズムを用いて,最近提案されたハイブリッドイベントフレームアプローチを改善した。
また、様々な畳み込みニューラルネットワーク(CNN)アーキテクチャを探索することにより、オブジェクト検出と分類の低消費電力要求にも対処する。
具体的には、対象検出フレームワークから得られた結果を最先端の低出力NVS監視システムと比較し、63.1%から82.16%の改善精度を示した。
論文 参考訳(メタデータ) (2020-03-19T07:18:33Z) - LE-HGR: A Lightweight and Efficient RGB-based Online Gesture Recognition
Network for Embedded AR Devices [8.509059894058947]
本稿では,低消費電力な組込みデバイス上でのリアルタイムジェスチャー認識を実現するために,軽量で計算効率のよいHGRフレームワークLE-HGRを提案する。
提案手法は高精度でロバスト性があり,様々な複雑な相互作用環境において,高性能な性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-01-16T05:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。