論文の概要: A real-time algorithm for human action recognition in RGB and thermal
video
- arxiv url: http://arxiv.org/abs/2304.01567v1
- Date: Tue, 4 Apr 2023 06:44:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-04-05 14:53:21.179347
- Title: A real-time algorithm for human action recognition in RGB and thermal
video
- Title(参考訳): rgbとサーマルビデオによる人間の行動認識のためのリアルタイムアルゴリズム
- Authors: Hannes Fassold, Karlheinz Gutjahr, Anna Weber, Roland Perko
- Abstract要約: 本稿では,RGBカメラとサーマルカメラの両方を対象とした深層学習に基づく人間の行動認識アルゴリズムを提案する。
NVIDIA GPUを搭載したノートブック上で、人間を検出して追跡し、4つの基本的なアクションをリアルタイムで認識することができる。
- 参考スコア(独自算出の注目度): 1.5749416770494706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monitoring the movement and actions of humans in video in real-time is an
important task. We present a deep learning based algorithm for human action
recognition for both RGB and thermal cameras. It is able to detect and track
humans and recognize four basic actions (standing, walking, running, lying) in
real-time on a notebook with a NVIDIA GPU. For this, it combines state of the
art components for object detection (Scaled YoloV4), optical flow (RAFT) and
pose estimation (EvoSkeleton). Qualitative experiments on a set of tunnel
videos show that the proposed algorithm works robustly for both RGB and thermal
video.
- Abstract(参考訳): 映像中の人間の動きや動作をリアルタイムで監視することは重要な課題である。
本稿では,rgbおよびサーマルカメラの人間行動認識のための深層学習に基づくアルゴリズムを提案する。
人間の検出と追跡が可能で、nvidia gpuを搭載したノートブック上で4つの基本的なアクション(立位、歩行、ランニング、嘘)をリアルタイムで認識することができる。
そのため、オブジェクト検出(Scaled YoloV4)、光学フロー(RAFT)、ポーズ推定(EvoSkeleton)のための技術コンポーネントの状態を組み合わせる。
トンネルビデオの定性的実験は、提案アルゴリズムがRGBと熱ビデオの両方で頑健に動作することを示している。
関連論文リスト
- Human Activity Recognition using RGB-Event based Sensors: A Multi-modal Heat Conduction Model and A Benchmark Dataset [65.76480665062363]
人間の活動認識は主に、高性能な活動認識を実現するために従来のRGBカメラに依存していた。
照明不足や急激な動きといった現実のシナリオにおける課題は、必然的にRGBカメラの性能を低下させる。
本研究では,RGBとイベントカメラを組み合わせることで,人間の活動認識を再考する。
論文 参考訳(メタデータ) (2025-04-08T09:14:24Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Deep Neural Networks in Video Human Action Recognition: A Review [21.00217656391331]
映像行動認識はコンピュータビジョンの最も基本的なタスクの1つである。
ディープニューラルネットワークは、RGB、RGB-D、光学フローフォーマットなどの画像のようなピクセルレベルの情報を認識するために構築されている。
本稿では,深層ニューラルネットワークの性能が,特徴学習および抽出タスクにおけるほとんどの技術を上回った。
論文 参考訳(メタデータ) (2023-05-25T03:54:41Z) - High Speed Human Action Recognition using a Photonic Reservoir Computer [1.7403133838762443]
我々は,「関心の時間」に基づく貯水池コンピュータの新しい訓練方法を提案する。
我々は,複数のビデオストリームをリアルタイムに処理できる点において,高い精度と速度でタスクを解く。
論文 参考訳(メタデータ) (2023-05-24T16:04:42Z) - Deep Learning Computer Vision Algorithms for Real-time UAVs On-board
Camera Image Processing [77.34726150561087]
本稿では,ディープラーニングに基づくコンピュータビジョンアルゴリズムを用いて,小型UAVのリアルタイムセンサ処理を実現する方法について述べる。
すべてのアルゴリズムは、ディープニューラルネットワークに基づく最先端の画像処理手法を用いて開発されている。
論文 参考訳(メタデータ) (2022-11-02T11:10:42Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - Video Action Recognition Using spatio-temporal optical flow video frames [0.0]
ビデオにおける人間の行動の認識には多くの問題がある。
本稿では,Deep Neural Networksを用いたビデオ分類のための空間的および時間的パターン認識に注目する。
最終認識精度は約94%であった。
論文 参考訳(メタデータ) (2021-02-05T19:46:49Z) - Faster and Accurate Compressed Video Action Recognition Straight from
the Frequency Domain [1.9214041945441434]
深層学習は、ビデオの中の人間の行動を認識するために強力で解釈可能な機能を学ぶのに成功している。
既存のディープラーニングアプローチのほとんどは、RGBイメージシーケンスとしてビデオ情報を処理するように設計されている。
本稿では,圧縮映像から直接学習可能な深層ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-26T12:43:53Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。