論文の概要: Human in Events: A Large-Scale Benchmark for Human-centric Video
Analysis in Complex Events
- arxiv url: http://arxiv.org/abs/2005.04490v6
- Date: Thu, 13 Jul 2023 13:23:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-14 18:03:37.413081
- Title: Human in Events: A Large-Scale Benchmark for Human-centric Video
Analysis in Complex Events
- Title(参考訳): human in events: 複雑なイベントにおける人間中心のビデオ分析のための大規模ベンチマーク
- Authors: Weiyao Lin, Huabin Liu, Shizhan Liu, Yuxi Li, Rui Qian, Tao Wang, Ning
Xu, Hongkai Xiong, Guo-Jun Qi, Nicu Sebe
- Abstract要約: 我々は、Human-in-Events(Human-in-Events)またはHiEve(HiEve)という、包括的なアノテーションを備えた新しい大規模データセットを提案する。
これには、複雑なイベントにおけるアクションインスタンスの最大数(>56k)と、長時間続くトラジェクトリの最大数(>1M)が含まれている。
多様なアノテーションに基づいて、アクション認識とポーズ推定のための2つのシンプルなベースラインを提示する。
- 参考スコア(独自算出の注目度): 106.19047816743988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Along with the development of modern smart cities, human-centric video
analysis has been encountering the challenge of analyzing diverse and complex
events in real scenes. A complex event relates to dense crowds, anomalous
individuals, or collective behaviors. However, limited by the scale and
coverage of existing video datasets, few human analysis approaches have
reported their performances on such complex events. To this end, we present a
new large-scale dataset with comprehensive annotations, named Human-in-Events
or HiEve (Human-centric video analysis in complex Events), for the
understanding of human motions, poses, and actions in a variety of realistic
events, especially in crowd & complex events. It contains a record number of
poses (>1M), the largest number of action instances (>56k) under complex
events, as well as one of the largest numbers of trajectories lasting for
longer time (with an average trajectory length of >480 frames). Based on its
diverse annotation, we present two simple baselines for action recognition and
pose estimation, respectively. They leverage cross-label information during
training to enhance the feature learning in corresponding visual tasks.
Experiments show that they could boost the performance of existing action
recognition and pose estimation pipelines. More importantly, they prove the
widely ranged annotations in HiEve can improve various video tasks.
Furthermore, we conduct extensive experiments to benchmark recent video
analysis approaches together with our baseline methods, demonstrating HiEve is
a challenging dataset for human-centric video analysis. We expect that the
dataset will advance the development of cutting-edge techniques in
human-centric analysis and the understanding of complex events. The dataset is
available at http://humaninevents.org
- Abstract(参考訳): 現代のスマートシティの発展とともに、人間中心のビデオ分析は、現実の場面で多様な複雑なイベントを分析するという課題に直面している。
複雑な出来事は、密集した群衆、異常な個人、集団的行動に関連する。
しかしながら、既存のビデオデータセットの規模とカバレッジによって制限されるため、このような複雑なイベントに対するパフォーマンスを報告している人的分析アプローチはほとんどない。
この目的のために,特に群集や複合イベントにおいて,人の動き,ポーズ,行動を理解するために,Human-in-Events(Human-centric video analysis in complex Events)と呼ばれる包括的なアノテーションを備えた大規模データセットを提案する。
複雑なイベントにおけるアクションインスタンスの最大数 (>56k) であるポーズ数 (>1M) と、長い時間(平均軌道長は >480 フレーム)続くトラジェクトリの最大数 (the most number of trajectories) を含む。
多様なアノテーションに基づいて,行動認識とポーズ推定のための2つの単純なベースラインを提案する。
トレーニング中のクロスラベル情報を活用して、対応する視覚タスクにおける特徴学習を強化する。
実験により、既存のアクション認識とポーズ推定パイプラインのパフォーマンスが向上することが示された。
さらに重要なことに、hieveの幅広いアノテーションが様々なビデオタスクを改善することを証明している。
さらに,最近のビデオ解析手法をベースライン手法とともにベンチマークするために広範囲な実験を行い,HiEveは人間中心のビデオ解析の挑戦的なデータセットであることを示した。
データセットは、人間中心の分析と複雑な事象の理解における最先端技術の開発を前進させることを期待している。
データセットはhttp://humaninevents.orgで利用可能である。
関連論文リスト
- Human-centric Scene Understanding for 3D Large-scale Scenarios [52.12727427303162]
本稿では,HuCenLifeという,人間中心のシーン理解のための大規模マルチモーダルデータセットを提案する。
私たちのHuCenLifeは、セグメンテーション、検出、アクション認識など、多くの3D認識タスクに役立ちます。
論文 参考訳(メタデータ) (2023-07-26T08:40:46Z) - Beyond Tracking: Using Deep Learning to Discover Novel Interactions in
Biological Swarms [3.441021278275805]
本稿では,システムレベルの状態を全体像から直接予測するディープ・ネットワーク・モデルを提案する。
結果の予測モデルは、人間の理解した予測モデルに基づいていないため、説明モジュールを使用する。
これは、行動生態学における人工知能の例である。
論文 参考訳(メタデータ) (2021-08-20T22:50:41Z) - JRDB-Act: A Large-scale Multi-modal Dataset for Spatio-temporal Action,
Social Group and Activity Detection [54.696819174421584]
大学構内環境における生活行動の実際の分布を反映したマルチモーダルデータセットであるJRDB-Actを紹介する。
JRDB-Actには280万以上のアクションラベルがある。
JRDB-Actは、現場での対話に基づいて個人をグループ化するタスクに着想を得た社会集団識別アノテーションが付属している。
論文 参考訳(メタデータ) (2021-06-16T14:43:46Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z) - A Simple Baseline for Pose Tracking in Videos of Crowded Scenes [130.84731947842664]
混み合った複雑な環境での人間のポーズを追跡する方法は、十分に対処されていない。
検出モデルにより生成された各境界ボックスに人体IDを割り当てるために,多目的追跡手法を用いる。
最終的に、ビデオ中の時間情報を利用して、最終的なポーズ追跡結果を生成するために光学フローが使用される。
論文 参考訳(メタデータ) (2020-10-16T13:06:21Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z) - ERA: A Dataset and Deep Learning Benchmark for Event Recognition in
Aerial Videos [28.598710179447803]
本稿では,遠隔センシングコミュニティにおける非拘束空中ビデオにおけるイベント認識の新たな課題について紹介する。
ERA(Event Recognition in Aerial Video)という,大規模で人間による注釈付きデータセットを提案する。
ERAデータセットは、クラス内の大きなバリエーションとクラス間の類似性を持つように設計されている。
論文 参考訳(メタデータ) (2020-01-30T15:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。