論文の概要: Video Action Recognition Using spatio-temporal optical flow video frames
- arxiv url: http://arxiv.org/abs/2103.05101v1
- Date: Fri, 5 Feb 2021 19:46:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 07:11:53.216142
- Title: Video Action Recognition Using spatio-temporal optical flow video frames
- Title(参考訳): 時空間光フロービデオフレームを用いた映像動作認識
- Authors: Aytekin Nebisoy and Saber Malekzadeh
- Abstract要約: ビデオにおける人間の行動の認識には多くの問題がある。
本稿では,Deep Neural Networksを用いたビデオ分類のための空間的および時間的パターン認識に注目する。
最終認識精度は約94%であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognizing human actions based on videos has became one of the most popular
areas of research in computer vision in recent years. This area has many
applications such as surveillance, robotics, health care, video search and
human-computer interaction. There are many problems associated with recognizing
human actions in videos such as cluttered backgrounds, obstructions, viewpoints
variation, execution speed and camera movement. A large number of methods have
been proposed to solve the problems. This paper focus on spatial and temporal
pattern recognition for the classification of videos using Deep Neural
Networks. This model takes RGB images and Optical Flow as input data and
outputs an action class number. The final recognition accuracy was about 94%.
- Abstract(参考訳): 近年,映像に基づく人間の行動認識がコンピュータビジョン研究の最も一般的な分野の一つとなっている。
この領域には、監視、ロボット工学、医療、ビデオ検索、人間とコンピュータの相互作用など多くの応用がある。
ビデオの背景や障害物、視点の変化、実行速度、カメラの動きなど、人間の行動を認識することには多くの問題がある。
この問題を解決するために多くの方法が提案されている。
本稿では,Deep Neural Networks を用いた映像分類における空間的・時間的パターン認識に着目した。
このモデルは、RGB画像と光フローを入力データとして、アクションクラス番号を出力する。
最終認識精度は約94%であった。
関連論文リスト
- EasyVolcap: Accelerating Neural Volumetric Video Research [69.59671164891725]
ボリュームビデオは、芸術的パフォーマンス、スポーツイベント、リモート会話などの動的イベントをデジタル的に記録する技術である。
EasyVolcapはPythonとPytorchのライブラリで、マルチビューデータ処理、4Dシーン再構成、効率的なダイナミックボリュームビデオレンダリングのプロセスを統一する。
論文 参考訳(メタデータ) (2023-12-11T17:59:46Z) - Deep Neural Networks in Video Human Action Recognition: A Review [21.00217656391331]
映像行動認識はコンピュータビジョンの最も基本的なタスクの1つである。
ディープニューラルネットワークは、RGB、RGB-D、光学フローフォーマットなどの画像のようなピクセルレベルの情報を認識するために構築されている。
本稿では,深層ニューラルネットワークの性能が,特徴学習および抽出タスクにおけるほとんどの技術を上回った。
論文 参考訳(メタデータ) (2023-05-25T03:54:41Z) - Deep Learning for Event-based Vision: A Comprehensive Survey and Benchmarks [55.81577205593956]
イベントカメラはバイオインスパイアされたセンサーで、ピクセルごとの強度の変化を非同期に捉える。
深層学習(DL)はこの新興分野に導入され、その可能性のマイニングに活発な研究努力にインスピレーションを与えている。
論文 参考訳(メタデータ) (2023-02-17T14:19:28Z) - Application Of ADNN For Background Subtraction In Smart Surveillance
System [0.0]
動作検出にADNNアーキテクチャを使用したインテリジェントなビデオ監視システムを開発し,動作のみを含む部分で映像をトリムし,トリミングされた映像に対して異常検出を行う。
論文 参考訳(メタデータ) (2022-12-31T18:42:11Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Video Manipulations Beyond Faces: A Dataset with Human-Machine Analysis [60.13902294276283]
我々は826の動画(413のリアルと413の操作)からなるデータセットであるVideoShamを提示する。
既存のディープフェイクデータセットの多くは、2種類の顔操作にのみ焦点をあてている。
我々の分析によると、最先端の操作検出アルゴリズムはいくつかの特定の攻撃に対してのみ有効であり、VideoShamではうまくスケールしない。
論文 参考訳(メタデータ) (2022-07-26T17:39:04Z) - A Multi-viewpoint Outdoor Dataset for Human Action Recognition [3.522154868524807]
我々は,YouTubeと当社のドローンから収集した多視点屋外行動認識データセットを提案する。
データセットは、20の動的なヒューマンアクションクラス、2324のビデオクリップ、503086フレームで構成されている。
全体のベースライン動作認識精度は74.0%である。
論文 参考訳(メタデータ) (2021-10-07T14:50:43Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Faster and Accurate Compressed Video Action Recognition Straight from
the Frequency Domain [1.9214041945441434]
深層学習は、ビデオの中の人間の行動を認識するために強力で解釈可能な機能を学ぶのに成功している。
既存のディープラーニングアプローチのほとんどは、RGBイメージシーケンスとしてビデオ情報を処理するように設計されている。
本稿では,圧縮映像から直接学習可能な深層ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-26T12:43:53Z) - A Comprehensive Study of Deep Video Action Recognition [35.7068977497202]
ビデオ動作認識は,映像理解における代表的なタスクの一つである。
ビデオ行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
論文 参考訳(メタデータ) (2020-12-11T18:54:08Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。