論文の概要: Deep Neural Networks in Video Human Action Recognition: A Review
- arxiv url: http://arxiv.org/abs/2305.15692v1
- Date: Thu, 25 May 2023 03:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 17:44:58.986654
- Title: Deep Neural Networks in Video Human Action Recognition: A Review
- Title(参考訳): ビデオ人間行動認識におけるディープニューラルネットワーク : レビュー
- Authors: Zihan Wang, Yang Yang, Zhi Liu, Yifan Zheng
- Abstract要約: 映像行動認識はコンピュータビジョンの最も基本的なタスクの1つである。
ディープニューラルネットワークは、RGB、RGB-D、光学フローフォーマットなどの画像のようなピクセルレベルの情報を認識するために構築されている。
本稿では,深層ニューラルネットワークの性能が,特徴学習および抽出タスクにおけるほとんどの技術を上回った。
- 参考スコア(独自算出の注目度): 21.00217656391331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Currently, video behavior recognition is one of the most foundational tasks
of computer vision. The 2D neural networks of deep learning are built for
recognizing pixel-level information such as images with RGB, RGB-D, or optical
flow formats, with the current increasingly wide usage of surveillance video
and more tasks related to human action recognition. There are increasing tasks
requiring temporal information for frames dependency analysis. The researchers
have widely studied video-based recognition rather than
image-based(pixel-based) only to extract more informative elements from
geometry tasks. Our current related research addresses multiple novel proposed
research works and compares their advantages and disadvantages between the
derived deep learning frameworks rather than machine learning frameworks. The
comparison happened between existing frameworks and datasets, which are video
format data only. Due to the specific properties of human actions and the
increasingly wide usage of deep neural networks, we collected all research
works within the last three years between 2020 to 2022. In our article, the
performance of deep neural networks surpassed most of the techniques in the
feature learning and extraction tasks, especially video action recognition.
- Abstract(参考訳): 現在、ビデオ行動認識はコンピュータビジョンの最も基本的なタスクの1つである。
ディープラーニングの2Dニューラルネットワークは、RGB、RGB-D、光学フローフォーマットなどのピクセルレベルの情報を認識するために構築されている。
フレーム依存分析に時間的情報を必要とするタスクが増えている。
研究者たちは、画像ベース(ピクセルベース)ではなく、ビデオベースの認識を広く研究してきた。
本研究は,複数の新しい研究成果を扱っており,機械学習フレームワークではなく,派生したディープラーニングフレームワーク間の利点とデメリットを比較している。
既存のフレームワークとデータセットの比較は、ビデオフォーマットのデータのみである。
人間の行動の特徴と深層ニューラルネットワークの利用の増大により、私たちは2020年から2022年までの3年間にすべての研究成果を収集しました。
本稿では,深層ニューラルネットワークの性能が特徴学習および抽出タスク,特にビデオ行動認識におけるほとんどの技術を上回った。
関連論文リスト
- NPF-200: A Multi-Modal Eye Fixation Dataset and Method for
Non-Photorealistic Videos [51.409547544747284]
NPF-200は、視線を固定した純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットである。
私たちは一連の分析を行い、このタスクについてより深い洞察を得ます。
NPSNetと呼ばれる広帯域周波数対応マルチモーダル非フォトリアリスティックサリエンシ検出モデルを提案する。
論文 参考訳(メタデータ) (2023-08-23T14:25:22Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - A large scale multi-view RGBD visual affordance learning dataset [4.3773754388936625]
大規模マルチビューRGBDビジュアルアプライアンス学習データセットを提案する。
これは、初めてかつ最大のマルチビューRGBDビジュアルアプライアンス学習データセットである。
いくつかの最先端のディープラーニングネットワークを,それぞれが可視性認識とセグメンテーションタスクのために評価する。
論文 参考訳(メタデータ) (2022-03-26T14:31:35Z) - Neural Architecture Search for Dense Prediction Tasks in Computer Vision [74.9839082859151]
ディープラーニングは、ニューラルネットワークアーキテクチャエンジニアリングに対する需要の高まりにつながっている。
ニューラルネットワーク検索(NAS)は、手動ではなく、データ駆動方式でニューラルネットワークアーキテクチャを自動設計することを目的としている。
NASはコンピュータビジョンの幅広い問題に適用されている。
論文 参考訳(メタデータ) (2022-02-15T08:06:50Z) - Dynamic Gesture Recognition [0.0]
従来のコンピュータビジョンアルゴリズムの代わりに、機械学習を使って画像や動画を分類することができる。
このプロジェクトの目的は、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の共生を構築することである。
論文 参考訳(メタデータ) (2021-09-20T09:45:29Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z) - Video Action Recognition Using spatio-temporal optical flow video frames [0.0]
ビデオにおける人間の行動の認識には多くの問題がある。
本稿では,Deep Neural Networksを用いたビデオ分類のための空間的および時間的パターン認識に注目する。
最終認識精度は約94%であった。
論文 参考訳(メタデータ) (2021-02-05T19:46:49Z) - A Framework for Fast Scalable BNN Inference using Googlenet and Transfer
Learning [0.0]
本論文は、リアルタイム性能の良い物体検出の高精度化を目指します。
バイナライズニューラルネットワークは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな視覚タスクで高いパフォーマンスを発揮しています。
その結果,移動学習法により検出された物体の精度は,既存手法と比較して高いことがわかった。
論文 参考訳(メタデータ) (2021-01-04T06:16:52Z) - Faster and Accurate Compressed Video Action Recognition Straight from
the Frequency Domain [1.9214041945441434]
深層学習は、ビデオの中の人間の行動を認識するために強力で解釈可能な機能を学ぶのに成功している。
既存のディープラーニングアプローチのほとんどは、RGBイメージシーケンスとしてビデオ情報を処理するように設計されている。
本稿では,圧縮映像から直接学習可能な深層ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-26T12:43:53Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Image Segmentation Using Deep Learning: A Survey [58.37211170954998]
イメージセグメンテーションは、画像処理とコンピュータビジョンにおいて重要なトピックである。
深層学習モデルを用いた画像セグメンテーション手法の開発を目的とした研究が,これまでに数多く行われている。
論文 参考訳(メタデータ) (2020-01-15T21:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。