論文の概要: Human Activity Recognition Using Cascaded Dual Attention CNN and
Bi-Directional GRU Framework
- arxiv url: http://arxiv.org/abs/2208.05034v1
- Date: Tue, 9 Aug 2022 20:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-11 12:31:57.877668
- Title: Human Activity Recognition Using Cascaded Dual Attention CNN and
Bi-Directional GRU Framework
- Title(参考訳): Cascaded Dual Attention CNN と Bi-Directional GRU Framework を用いた人間の活動認識
- Authors: Hayat Ullah, Arslan Munir
- Abstract要約: 視覚に基づく人間の活動認識は、ビデオ分析領域において重要な研究領域の1つとして現れてきた。
本稿では,人間の行動認識における深部識別的空間的特徴と時間的特徴を利用した,計算的に効率的だが汎用的な空間時空間カスケードフレームワークを提案する。
提案手法は, 従来の動作認識手法と比較して, フレーム毎秒最大167倍の性能向上を実現している。
- 参考スコア(独自算出の注目度): 3.3721926640077795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-based human activity recognition has emerged as one of the essential
research areas in video analytics domain. Over the last decade, numerous
advanced deep learning algorithms have been introduced to recognize complex
human actions from video streams. These deep learning algorithms have shown
impressive performance for the human activity recognition task. However, these
newly introduced methods either exclusively focus on model performance or the
effectiveness of these models in terms of computational efficiency and
robustness, resulting in a biased tradeoff in their proposals to deal with
challenging human activity recognition problem. To overcome the limitations of
contemporary deep learning models for human activity recognition, this paper
presents a computationally efficient yet generic spatial-temporal cascaded
framework that exploits the deep discriminative spatial and temporal features
for human activity recognition. For efficient representation of human actions,
we have proposed an efficient dual attentional convolutional neural network
(CNN) architecture that leverages a unified channel-spatial attention mechanism
to extract human-centric salient features in video frames. The dual
channel-spatial attention layers together with the convolutional layers learn
to be more attentive in the spatial receptive fields having objects over the
number of feature maps. The extracted discriminative salient features are then
forwarded to stacked bi-directional gated recurrent unit (Bi-GRU) for long-term
temporal modeling and recognition of human actions using both forward and
backward pass gradient learning. Extensive experiments are conducted, where the
obtained results show that the proposed framework attains an improvement in
execution time up to 167 times in terms of frames per second as compared to
most of the contemporary action recognition methods.
- Abstract(参考訳): 視覚に基づく人間の活動認識は、ビデオ分析領域において重要な研究領域の1つである。
過去10年間で、ビデオストリームから複雑な人間の行動を認識するために、多くの高度なディープラーニングアルゴリズムが導入された。
これらの深層学習アルゴリズムは、人間の活動認識タスクに顕著な性能を示している。
しかし、これらの新しい手法は、計算効率とロバスト性の観点から、モデルの性能とモデルの有効性にのみ焦点をあて、その結果、人間の行動認識問題に対処する提案においてバイアスのあるトレードオフをもたらす。
本稿では,人間行動認識のための現代的深層学習モデルの限界を克服するために,人間行動認識の深層的空間的・時間的特徴を生かした計算効率と汎用的空間-時間的カスケードフレームワークを提案する。
人間の行動の効率的な表現のために,映像フレーム内の人間中心の有意な特徴を抽出するために,統合されたチャネル空間的注意機構を活用する,効果的な二重注意畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。
二重チャネル空間的注意層と畳み込み層は、特徴写像の数以上の対象を持つ空間受容場においてより注意深いことを学習する。
抽出した有意な有意な特徴を積み重ねた双方向ゲートリカレントユニット(Bi-GRU)に転送し、前向きと後向きの両方の勾配学習を用いて、長期の時間的モデリングと人間の行動認識を行う。
提案手法は,従来の動作認識法に比べて,1秒あたりフレーム数で最大167倍の性能向上を実現した。
関連論文リスト
- Apprenticeship-Inspired Elegance: Synergistic Knowledge Distillation Empowers Spiking Neural Networks for Efficient Single-Eye Emotion Recognition [53.359383163184425]
本稿では, 効率的な単一眼球運動認識タスクに適した, マルチモーダル・シナジスティック知識蒸留方式を提案する。
この方法では、軽量で単調な学生スパイクニューラルネットワーク(SNN)が、イベントフレームマルチモーダル教師ネットワークから豊富な知識を抽出することができる。
論文 参考訳(メタデータ) (2024-06-20T07:24:47Z) - Deep Learning Approaches for Human Action Recognition in Video Data [0.8080830346931087]
本研究は、この課題に対処するために、様々なディープラーニングモデルの詳細な分析を行う。
我々は、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、Two-Stream ConvNetsに焦点を当てる。
本研究の結果は,頑健な人間の行動認識を実現するための複合モデルの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-03-11T15:31:25Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - Skeleton-based Human Action Recognition via Convolutional Neural
Networks (CNN) [4.598337780022892]
骨格に基づく行動認識における最先端の貢献のほとんどは、人体を表現し特徴を抽出するグラフニューラルネットワーク(GCN)アーキテクチャを取り入れている。
我々の研究は、CNNがGCNに匹敵する結果が得られることを実証し、適切なトレーニング手法、強化、拡張が適用できることを示した。
論文 参考訳(メタデータ) (2023-01-31T01:26:17Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - A Close Look into Human Activity Recognition Models using Deep Learning [0.0]
本稿では,ディープラーニングアーキテクチャに基づく最先端の人間活動認識モデルについて検討する。
この分析は、モデルがどのように実装され、その効果と、それが直面する潜在的な制限を最大化するかを概説している。
論文 参考訳(メタデータ) (2022-04-26T19:43:21Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Collaborative Distillation in the Parameter and Spectrum Domains for
Video Action Recognition [79.60708268515293]
本稿では,行動認識のための小型かつ効率的なネットワークの訓練方法について検討する。
周波数領域における2つの蒸留戦略,すなわち特徴スペクトルとパラメータ分布蒸留を提案する。
提案手法は,同じバックボーンを持つ最先端の手法よりも高い性能を実現することができる。
論文 参考訳(メタデータ) (2020-09-15T07:29:57Z) - Attention-Oriented Action Recognition for Real-Time Human-Robot
Interaction [11.285529781751984]
本稿では,リアルタイムインタラクションの必要性に応えるために,アテンション指向のマルチレベルネットワークフレームワークを提案する。
具体的には、プレアテンションネットワークを使用して、低解像度でシーン内のインタラクションに大まかにフォーカスする。
他のコンパクトCNNは、抽出されたスケルトンシーケンスをアクション認識用の入力として受信する。
論文 参考訳(メタデータ) (2020-07-02T12:41:28Z) - Simultaneous Learning from Human Pose and Object Cues for Real-Time
Activity Recognition [11.290467061493189]
本研究では,人間の行動にかかわるポーズや物体の観察から同時に学習することで,人間の行動認識に対する新しいアプローチを提案する。
提案手法は従来の手法より優れ,104Hzの処理速度で人間の行動認識のリアルタイム性能を得る。
論文 参考訳(メタデータ) (2020-03-26T22:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。