論文の概要: A Multi-Person Video Dataset Annotation Method of Spatio-Temporally
Actions
- arxiv url: http://arxiv.org/abs/2204.10160v1
- Date: Thu, 21 Apr 2022 15:14:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 16:43:20.948558
- Title: A Multi-Person Video Dataset Annotation Method of Spatio-Temporally
Actions
- Title(参考訳): 時空間行動のマルチパーソンビデオデータセットアノテーション手法
- Authors: Fan Yang
- Abstract要約: ビデオのクロップやフレームビデオ、そしてビデオフレーム内の人間の検出にYolov5を使い、ビデオフレーム内の人間のIDをディープソートして検出します。
- 参考スコア(独自算出の注目度): 4.49302950538123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatio-temporal action detection is an important and challenging problem in
video understanding. However, the application of the existing large-scale
spatio-temporal action datasets in specific fields is limited, and there is
currently no public tool for making spatio-temporal action datasets, it takes a
lot of time and effort for researchers to customize the spatio-temporal action
datasets, so we propose a multi-Person video dataset Annotation Method of
spatio-temporally actions.First, we use ffmpeg to crop the videos and frame the
videos; then use yolov5 to detect human in the video frame, and then use deep
sort to detect the ID of the human in the video frame. By processing the
detection results of yolov5 and deep sort, we can get the annotation file of
the spatio-temporal action dataset to complete the work of customizing the
spatio-temporal action dataset.
- Abstract(参考訳): 時空間行動検出はビデオ理解において重要かつ困難な問題である。
However, the application of the existing large-scale spatio-temporal action datasets in specific fields is limited, and there is currently no public tool for making spatio-temporal action datasets, it takes a lot of time and effort for researchers to customize the spatio-temporal action datasets, so we propose a multi-Person video dataset Annotation Method of spatio-temporally actions.First, we use ffmpeg to crop the videos and frame the videos; then use yolov5 to detect human in the video frame, and then use deep sort to detect the ID of the human in the video frame.
yolov5とdeep sortの検出結果を処理することにより、時空間アクションデータセットのアノテーションファイルを取得し、時空間アクションデータセットをカスタマイズする作業が完了する。
関連論文リスト
- POPCat: Propagation of particles for complex annotation tasks [7.236620861573004]
ビデオデータの多目的・時間的特徴を利用したPOPCatという時間効率な手法を提案する。
この方法は、セグメンテーションやボックスベースのビデオアノテーションのための半教師付きパイプラインを生成する。
この方法は、最良の結果よりもリコール/mAP50/mAPの改善率を示す。
論文 参考訳(メタデータ) (2024-06-24T23:43:08Z) - Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video
Grounding [59.599378814835205]
時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。
そこで本研究では,対象データからの洞察を取り入れた新たなAMDA手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T07:49:27Z) - Boundary-Denoising for Video Activity Localization [57.9973253014712]
本稿では,映像活動のローカライゼーション問題について,認知的視点から検討する。
具体的には,DenoiseLocというエンコーダデコーダモデルを提案する。
実験によると、DenoiseLocはいくつかのビデオアクティビティ理解タスクで%前進している。
論文 参考訳(メタデータ) (2023-04-06T08:48:01Z) - Video Action Detection: Analysing Limitations and Challenges [70.01260415234127]
ビデオ行動検出における既存のデータセットを分析し,その限界について議論する。
静的画像から映像を区別する重要な特性である時間的側面を解析するバイアスネススタディを実行する。
このような極端な実験は、注意深いモデリングを必要とする既存の手法に忍び込んだバイアスの存在を示している。
論文 参考訳(メタデータ) (2022-04-17T00:42:14Z) - FineAction: A Fined Video Dataset for Temporal Action Localization [60.90129329728657]
FineActionは、既存のビデオデータセットとWebビデオから収集された、新しい大規模なファインドビデオデータセットである。
このデータセットには、106のアクションカテゴリにまたがる約17Kの未トリミングビデオに高密度にアノテートされた139Kのアクションインスタンスが含まれている。
実験結果から,FineActionは短い期間のファインドおよびマルチラベルインスタンス上でのアクションローカライゼーションに新たな課題をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2021-05-24T06:06:32Z) - Activity Graph Transformer for Temporal Action Localization [41.69734359113706]
時間的行動のローカリゼーションのためのエンドツーエンド学習可能なモデルであるActivity Graph Transformerを紹介します。
本研究では,この非線形時間構造を,映像を非連続実体としてグラフの形で推論することによって捉える。
その結果,提案したモデルが最新技術より相当なマージンで上回ることが示された。
論文 参考訳(メタデータ) (2021-01-21T10:42:48Z) - Spatio-Temporal Action Detection with Multi-Object Interaction [127.85524354900494]
本稿では,多目的インタラクションを用いたS時間動作検出問題について検討する。
マルチオブジェクトインタラクションを含むアクションチューブに空間的アノテーションを付加した新しいデータセットを提案する。
本研究では,空間的・時間的回帰を同時に行うエンド・ツー・エンドの時間的行動検出モデルを提案する。
論文 参考訳(メタデータ) (2020-04-01T00:54:56Z) - STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos [17.232631075144592]
例えば、ビデオのセグメンテーションは、通常、トラッキング・バイ・検出のパラダイムに従っている。
単一段階における時間と空間をまたいだインスタンスのセグメント化と追跡を行う新しい手法を提案する。
提案手法は,複数のデータセットやタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T18:40:52Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z) - Joint Visual-Temporal Embedding for Unsupervised Learning of Actions in
Untrimmed Sequences [25.299599341774204]
本稿では,共同視覚-時間埋め込み空間に基づく映像系列の教師なし学習手法を提案する。
提案手法は、連続したビデオフレームに存在する視覚的手がかりから有意義な視覚的、時間的埋め込みを提供することができることを示す。
論文 参考訳(メタデータ) (2020-01-29T22:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。