論文の概要: Exploiting the ConvLSTM: Human Action Recognition using Raw Depth
Video-Based Recurrent Neural Networks
- arxiv url: http://arxiv.org/abs/2006.07744v1
- Date: Sat, 13 Jun 2020 23:35:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 21:17:41.501051
- Title: Exploiting the ConvLSTM: Human Action Recognition using Raw Depth
Video-Based Recurrent Neural Networks
- Title(参考訳): convlstmの活用 : raw depth video-based recurrent neural networkを用いたヒューマンアクション認識
- Authors: Adrian Sanchez-Caballero, David Fuentes-Jimenez, Cristina
Losada-Guti\'errez
- Abstract要約: 本稿では,畳み込み長短期記憶ユニット,すなわちConvLSTMに基づく2つのニューラルネットワークを提案し,比較する。
提案モデルは,最先端手法と比較して,計算コストの低い競合認識精度を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As in many other different fields, deep learning has become the main approach
in most computer vision applications, such as scene understanding, object
recognition, computer-human interaction or human action recognition (HAR).
Research efforts within HAR have mainly focused on how to efficiently extract
and process both spatial and temporal dependencies of video sequences. In this
paper, we propose and compare, two neural networks based on the convolutional
long short-term memory unit, namely ConvLSTM, with differences in the
architecture and the long-term learning strategy. The former uses a
video-length adaptive input data generator (\emph{stateless}) whereas the
latter explores the \emph{stateful} ability of general recurrent neural
networks but applied in the particular case of HAR. This stateful property
allows the model to accumulate discriminative patterns from previous frames
without compromising computer memory. Experimental results on the large-scale
NTU RGB+D dataset show that the proposed models achieve competitive recognition
accuracies with lower computational cost compared with state-of-the-art methods
and prove that, in the particular case of videos, the rarely-used stateful mode
of recurrent neural networks significantly improves the accuracy obtained with
the standard mode. The recognition accuracies obtained are 75.26\% (CS) and
75.45\% (CV) for the stateless model, with an average time consumption per
video of 0.21 s, and 80.43\% (CS) and 79.91\%(CV) with 0.89 s for the stateful
version.
- Abstract(参考訳): 他の多くの分野と同様に、深層学習はシーン理解、オブジェクト認識、コンピュータと人間のインタラクション、ヒューマンアクション認識(HAR)など、ほとんどのコンピュータビジョンアプリケーションにおいて主要なアプローチとなっている。
HAR内の研究は、主にビデオシーケンスの空間的および時間的依存関係を効率的に抽出し、処理する方法に焦点を当てている。
本稿では,畳み込み型長期記憶ユニット,すなわちConvLSTMに基づく2つのニューラルネットワークを提案する。
前者はビデオ長適応型入力データ生成器(\emph{stateless})を使用し、後者は一般的なリカレントニューラルネットワークの \emph{stateful} 能力を探索するが、HARの特定の場合に適用する。
このステートフルな性質により、モデルはコンピュータメモリを損なうことなく、以前のフレームから識別パターンを蓄積することができる。
大規模ntu rgb+dデータセットにおける実験結果から,提案手法は最先端手法に比べて計算コストが低い競合認識精度を達成し,特にビデオの場合,レカレントニューラルネットの希少なステートフルモードにより,標準モードによる精度が大幅に向上することを示す。
認識精度は、ステートレスモデルでは75.26\%(CS)、75.45\%(CV)、ビデオあたりの平均消費時間は0.21 s、80.43\%(CS)、79.91\%(CV)、ステートフルバージョンでは0.89 sである。
関連論文リスト
- Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Human activity recognition using deep learning approaches and single
frame cnn and convolutional lstm [0.0]
我々は、ビデオから人間の行動を認識するために、単一のフレーム畳み込みニューラルネットワーク(CNN)と畳み込み長短期記憶という、深層学習に基づく2つのアプローチを探索する。
2つのモデルは、ベンチマークアクション認識データセットであるUCF50と、実験のために作成された別のデータセットでトレーニングされ、評価された。
どちらのモデルも精度は良いが、単一のフレームCNNモデルはUCF50データセットで99.8%の精度で畳み込みLSTMモデルより優れている。
論文 参考訳(メタデータ) (2023-04-18T01:33:29Z) - Continuous time recurrent neural networks: overview and application to
forecasting blood glucose in the intensive care unit [56.801856519460465]
連続時間自己回帰リカレントニューラルネットワーク(Continuous Time Autoregressive Recurrent Neural Network, CTRNN)は、不規則な観測を考慮に入れたディープラーニングモデルである。
重篤なケア環境下での血糖値の確率予測へのこれらのモデルの適用を実証する。
論文 参考訳(メタデータ) (2023-04-14T09:39:06Z) - Video Action Recognition Collaborative Learning with Dynamics via
PSO-ConvNet Transformer [1.876462046907555]
ビデオにおける学習行動のための新しいPSO-ConvNetモデルを提案する。
UCF-101データセットに対する実験結果から,最大9%の精度向上が得られた。
全体として、我々の動的PSO-ConvNetモデルは、人間の行動認識を改善するための有望な方向を提供する。
論文 参考訳(メタデータ) (2023-02-17T23:39:34Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Variable Bitrate Neural Fields [75.24672452527795]
本稿では,特徴格子を圧縮し,メモリ消費を最大100倍に削減する辞書手法を提案する。
辞書の最適化をベクトル量子化オートデコーダ問題として定式化し、直接監督できない空間において、エンドツーエンドの離散神経表現を学習する。
論文 参考訳(メタデータ) (2022-06-15T17:58:34Z) - Time-Frequency Localization Using Deep Convolutional Maxout Neural
Network in Persian Speech Recognition [0.0]
一部の哺乳類の聴覚ニューロン系における時間周波数の柔軟性は、認識性能を向上させる。
本稿では,ASR音響モデルにおける音声信号情報の時間的局所化のためのCNNに基づく構造を提案する。
TFCMNNモデルの平均認識スコアは、従来のモデルの平均よりも約1.6%高い。
論文 参考訳(メタデータ) (2021-08-09T05:46:58Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - A Variational Information Bottleneck Based Method to Compress Sequential
Networks for Human Action Recognition [9.414818018857316]
本稿では,人間行動認識(HAR)に用いるリカレントニューラルネットワーク(RNN)を効果的に圧縮する手法を提案する。
変分情報ボトルネック(VIB)理論に基づくプルーニング手法を用いて,RNNの逐次セルを流れる情報の流れを小さなサブセットに制限する。
我々は、圧縮を大幅に改善する特定のグループ・ラッソ正規化手法とプルーニング手法を組み合わせる。
提案手法は,UCF11上での動作認識の精度に比較して,最も近い競合に比べて70倍以上の圧縮を実現する。
論文 参考訳(メタデータ) (2020-10-03T12:41:51Z) - Binary Neural Networks for Memory-Efficient and Effective Visual Place
Recognition in Changing Environments [24.674034243725455]
視覚的場所認識(VPR)は、視覚データを用いて、ある場所が訪れたかどうかを判断するロボットの能力である。
CNNベースのアプローチは、小さなロボットやドローンのようなリソース制約のあるプラットフォームには適さない。
本稿では,メモリ要求と計算労力を大幅に削減する,超コンパクトモデルの新たなクラスを提案する。
論文 参考訳(メタデータ) (2020-10-01T22:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。