Fugu-MT 論文翻訳(概要): A Multi-viewpoint Outdoor Dataset for Human Action Recognition

論文の概要: A Multi-viewpoint Outdoor Dataset for Human Action Recognition

arxiv url: http://arxiv.org/abs/2110.04119v1
Date: Thu, 7 Oct 2021 14:50:43 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-11 14:11:22.863861
Title: A Multi-viewpoint Outdoor Dataset for Human Action Recognition
Title（参考訳）: 人間行動認識のための多視点屋外データセット
Authors: Asanka G. Perera, Yee Wei Law, Titilayo T. Ogunwa, and Javaan Chahl
Abstract要約: 我々は,YouTubeと当社のドローンから収集した多視点屋外行動認識データセットを提案する。データセットは、20の動的なヒューマンアクションクラス、2324のビデオクリップ、503086フレームで構成されている。全体のベースライン動作認識精度は74.0%である。
参考スコア（独自算出の注目度）: 3.522154868524807
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Advancements in deep neural networks have contributed to near perfect results for many computer vision problems such as object recognition, face recognition and pose estimation. However, human action recognition is still far from human-level performance. Owing to the articulated nature of the human body, it is challenging to detect an action from multiple viewpoints, particularly from an aerial viewpoint. This is further compounded by a scarcity of datasets that cover multiple viewpoints of actions. To fill this gap and enable research in wider application areas, we present a multi-viewpoint outdoor action recognition dataset collected from YouTube and our own drone. The dataset consists of 20 dynamic human action classes, 2324 video clips and 503086 frames. All videos are cropped and resized to 720x720 without distorting the original aspect ratio of the human subjects in videos. This dataset should be useful to many research areas including action recognition, surveillance and situational awareness. We evaluated the dataset with a two-stream CNN architecture coupled with a recently proposed temporal pooling scheme called kernelized rank pooling that produces nonlinear feature subspace representations. The overall baseline action recognition accuracy is 74.0%.
Abstract（参考訳）: ディープニューラルネットワークの進歩は、物体認識、顔認識、ポーズ推定など多くのコンピュータビジョン問題において、ほぼ完璧な結果をもたらす。しかし、人間の行動認識は人間レベルのパフォーマンスには程遠い。人間の身体の明瞭な性質から、複数の視点、特に航空的な視点から行動を検出することは困難である。これは、アクションの複数の視点をカバーするデータセットの不足によってさらに複雑になる。このギャップを埋め、幅広い応用分野の研究を可能にするために、YouTubeと当社のドローンから収集した多視点屋外行動認識データセットを提示する。データセットは20の動的ヒューマンアクションクラス、2324のビデオクリップ、503086フレームで構成されている。すべてのビデオは、720x720にリサイズされ、ビデオ中の人間の本来のアスペクト比を歪めない。このデータセットは、行動認識、監視、状況認識を含む多くの研究分野に有用である。最近提案した2ストリームCNNアーキテクチャと、非線形特徴部分空間表現を生成するカーネル化ランクプーリングと呼ばれる時間プール方式を組み合わせたデータセットの評価を行った。総合ベースライン動作認識精度は74.0%である。

関連論文リスト

Video Anomaly Detection with Contours - A Study [24.525564527855092]
本研究では,2次元輪郭を用いた正常人の動作パターンの学習の可能性について検討した。以上の結果から,Poseを用いたビデオ異常検出の新たな視点は今後の研究にとって有望な方向であることが示唆された。
論文参考訳（メタデータ） (2025-03-25T12:11:50Z)
Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文参考訳（メタデータ） (2023-11-10T18:38:14Z)
DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文参考訳（メタデータ） (2023-07-19T17:58:03Z)
Deep Neural Networks in Video Human Action Recognition: A Review [21.00217656391331]
映像行動認識はコンピュータビジョンの最も基本的なタスクの1つである。ディープニューラルネットワークは、RGB、RGB-D、光学フローフォーマットなどの画像のようなピクセルレベルの情報を認識するために構築されている。本稿では,深層ニューラルネットワークの性能が,特徴学習および抽出タスクにおけるほとんどの技術を上回った。
論文参考訳（メタデータ） (2023-05-25T03:54:41Z)
Differentiable Frequency-based Disentanglement for Aerial Video Action Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2022-09-15T22:16:52Z)
HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4～12%向上したことを観察した。
論文参考訳（メタデータ） (2021-10-05T01:18:15Z)
TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文参考訳（メタデータ） (2021-04-08T20:01:00Z)
UAV-Human: A Large Benchmark for Human Behavior Understanding with Unmanned Aerial Vehicles [12.210724541266183]
UAVを用いた人間の行動理解のための新しいベンチマークUAVHumanを提案する。本データセットは,67,428件のマルチモーダルビデオシーケンスと119件のアクション認識対象を含む。フラットRGB映像による学習変換により,魚眼映像の歪みを緩和する魚眼行動認識手法を提案する。
論文参考訳（メタデータ） (2021-04-02T08:54:04Z)
Video Action Recognition Using spatio-temporal optical flow video frames [0.0]
ビデオにおける人間の行動の認識には多くの問題がある。本稿では,Deep Neural Networksを用いたビデオ分類のための空間的および時間的パターン認識に注目する。最終認識精度は約94%であった。
論文参考訳（メタデータ） (2021-02-05T19:46:49Z)
Toward Accurate Person-level Action Recognition in Videos of Crowded Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文参考訳（メタデータ） (2020-10-16T13:08:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。