論文の概要: Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes
- arxiv url: http://arxiv.org/abs/2010.08365v1
- Date: Fri, 16 Oct 2020 13:08:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 21:22:38.553953
- Title: Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes
- Title(参考訳): 群衆シーン映像における人物レベルの行動認識の精度向上に向けて
- Authors: Li Yuan, Yichen Zhou, Shuning Chang, Ziyuan Huang, Yunpeng Chen,
Xuecheng Nie, Tao Wang, Jiashi Feng, Shuicheng Yan
- Abstract要約: 我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
- 参考スコア(独自算出の注目度): 131.9067467127761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting and recognizing human action in videos with crowded scenes is a
challenging problem due to the complex environment and diversity events. Prior
works always fail to deal with this problem in two aspects: (1) lacking
utilizing information of the scenes; (2) lacking training data in the crowd and
complex scenes. In this paper, we focus on improving spatio-temporal action
recognition by fully-utilizing the information of scenes and collecting new
data. A top-down strategy is used to overcome the limitations. Specifically, we
adopt a strong human detector to detect the spatial location of each frame. We
then apply action recognition models to learn the spatio-temporal information
from video frames on both the HIE dataset and new data with diverse scenes from
the internet, which can improve the generalization ability of our model.
Besides, the scenes information is extracted by the semantic segmentation model
to assistant the process. As a result, our method achieved an average 26.05
wf\_mAP (ranking 1st place in the ACM MM grand challenge 2020: Human in
Events).
- Abstract(参考訳): 混み合ったシーンの動画におけるヒューマンアクションの検出と認識は、複雑な環境と多様性のイベントのために難しい問題である。
先行作品では,(1)シーンの情報の活用の欠如,(2)群衆や複雑なシーンにおけるトレーニングデータの欠如,という2つの側面からこの問題に対処することができない。
本稿では,シーンの情報を完全に活用し,新たなデータ収集を行い,時空間的行動認識の改善に焦点をあてる。
トップダウン戦略は制限を克服するために使用される。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして,HIEデータセットとインターネットの多様なシーンを持つ新しいデータの両方の動画フレームから時空間情報を得るために,行動認識モデルを適用し,モデルの一般化能力を向上させる。
また、シーン情報はセマンティックセグメンテーションモデルによって抽出され、プロセスを補助する。
その結果、平均26.05wf\_mAP(ACM MMグランドチャレンジ2020: Human in Eventsで1位)を達成した。
関連論文リスト
- Unveiling Context-Related Anomalies: Knowledge Graph Empowered Decoupling of Scene and Action for Human-Related Video Anomaly Detection [29.900229206335908]
人間関連ビデオにおける異常の検出は、監視アプリケーションにとって不可欠である。
現在の手法は外見に基づく技術とアクションに基づく技術に依存している。
ヒューマン関連ビデオ異常検出(DecoAD)のためのデカップリングに基づく新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-09-05T04:13:13Z) - Reconstructing Close Human Interactions from Multiple Views [38.924950289788804]
本稿では,複数のキャリブレーションカメラで捉えた密接なインタラクションを行う複数の個人のポーズを再構築する上での課題について述べる。
これらの課題に対処する新しいシステムを導入する。
本システムは,学習に基づくポーズ推定コンポーネントと,それに対応するトレーニングと推論戦略を統合する。
論文 参考訳(メタデータ) (2024-01-29T14:08:02Z) - Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video
Grounding [59.599378814835205]
時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。
そこで本研究では,対象データからの洞察を取り入れた新たなAMDA手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T07:49:27Z) - Generalizable Person Search on Open-world User-Generated Video Content [93.72028298712118]
人物の検索は、大量の露骨なシーン画像から個人を検索する、困難な作業である。
既存の人検索アプリケーションは、ほとんどトレーニングされ、同じシナリオにデプロイされます。
本稿では,任意のシナリオにおける下流タスクを容易にするために,特徴レベルとデータレベルの両方の一般化可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-16T04:59:50Z) - Towards Accurate Human Pose Estimation in Videos of Crowded Scenes [134.60638597115872]
我々は、時間的文脈を利用して新しいデータを収集する視点から、混雑したシーンのビデオにおける人間のポーズ推定を改善することに注力する。
あるフレームについては、過去のフレームから過去のポーズを転送し、その後のフレームから現在のフレームへ未来的なポーズを後退させ、ビデオにおける安定した人間のポーズ推定に繋がる。
このようにして、HIEチャレンジのテストデータセット上で、13本中7本、56.33本の平均w_APで最高の性能を達成する。
論文 参考訳(メタデータ) (2020-10-16T13:19:11Z) - Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文 参考訳(メタデータ) (2020-09-12T09:54:11Z) - Human in Events: A Large-Scale Benchmark for Human-centric Video
Analysis in Complex Events [106.19047816743988]
我々は、Human-in-Events(Human-in-Events)またはHiEve(HiEve)という、包括的なアノテーションを備えた新しい大規模データセットを提案する。
これには、複雑なイベントにおけるアクションインスタンスの最大数(>56k)と、長時間続くトラジェクトリの最大数(>1M)が含まれている。
多様なアノテーションに基づいて、アクション認識とポーズ推定のための2つのシンプルなベースラインを提示する。
論文 参考訳(メタデータ) (2020-05-09T18:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。