論文の概要: Deep Learning-based Action Detection in Untrimmed Videos: A Survey
- arxiv url: http://arxiv.org/abs/2110.00111v1
- Date: Thu, 30 Sep 2021 22:42:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 04:34:24.013374
- Title: Deep Learning-based Action Detection in Untrimmed Videos: A Survey
- Title(参考訳): 映像における深層学習に基づく行動検出:調査
- Authors: Elahe Vahdani and Yingli Tian
- Abstract要約: ほとんどの現実世界のビデオは長く、興味をそそる部分がある。
非トリミングビデオにおける時間的活動検出のタスクは、アクションの時間的境界をローカライズすることを目的としている。
本稿では,非トリミングビデオにおける時間的行動検出のためのディープラーニングに基づくアルゴリズムの概要について述べる。
- 参考スコア(独自算出の注目度): 20.11911785578534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding human behavior and activity facilitates advancement of numerous
real-world applications, and is critical for video analysis. Despite the
progress of action recognition algorithms in trimmed videos, the majority of
real-world videos are lengthy and untrimmed with sparse segments of interest.
The task of temporal activity detection in untrimmed videos aims to localize
the temporal boundary of actions and classify the action categories. Temporal
activity detection task has been investigated in full and limited supervision
settings depending on the availability of action annotations. This paper
provides an extensive overview of deep learning-based algorithms to tackle
temporal action detection in untrimmed videos with different supervision levels
including fully-supervised, weakly-supervised, unsupervised, self-supervised,
and semi-supervised. In addition, this paper also reviews advances in
spatio-temporal action detection where actions are localized in both temporal
and spatial dimensions. Moreover, the commonly used action detection benchmark
datasets and evaluation metrics are described, and the performance of the
state-of-the-art methods are compared. Finally, real-world applications of
temporal action detection in untrimmed videos and a set of future directions
are discussed.
- Abstract(参考訳): 人間の行動や活動を理解することは、多くの現実世界のアプリケーションの発展を促進し、ビデオ分析に不可欠である。
トリミングされたビデオにおけるアクション認識アルゴリズムの進歩にもかかわらず、現実世界の動画の大部分は長く、興味の薄いセグメントでトリミングされていない。
非トリミングビデオにおける時間的活動検出のタスクは、アクションの時間的境界をローカライズし、アクションカテゴリを分類することを目的としている。
アクションアノテーションの利用可能度に応じて,時間的活動検出タスクを,完全かつ限定的な監視設定で検討した。
本稿では,完全教師あり,弱い教師あり,教師なし,教師なし,自己教師なし,半教師ありなど,監督レベルが異なるビデオにおいて,時間的動作検出に取り組むための深層学習に基づくアルゴリズムの概要について述べる。
さらに,行動が時間的および空間的次元の両方に局所化される時空間的行動検出の進歩についても概説する。
さらに、一般的に使用されるアクション検出ベンチマークデータセットと評価メトリクスを記述し、最先端手法の性能を比較する。
最後に,非トリミングビデオにおける時間的行動検出の現実的応用と今後の方向性について述べる。
関連論文リスト
- Deep Learning for Video Anomaly Detection: A Review [52.74513211976795]
ビデオ異常検出(VAD)は、ビデオの正常性から逸脱する行動や事象を発見することを目的としている。
ディープラーニングの時代には、VADタスクには、さまざまなディープラーニングベースの方法が常に現れています。
このレビューでは、半教師付き、弱教師付き、完全教師付き、非教師付き、オープンセットの5つのカテゴリのスペクトルについて取り上げる。
論文 参考訳(メタデータ) (2024-09-09T07:31:16Z) - Video Action Detection: Analysing Limitations and Challenges [70.01260415234127]
ビデオ行動検出における既存のデータセットを分析し,その限界について議論する。
静的画像から映像を区別する重要な特性である時間的側面を解析するバイアスネススタディを実行する。
このような極端な実験は、注意深いモデリングを必要とする既存の手法に忍び込んだバイアスの存在を示している。
論文 参考訳(メタデータ) (2022-04-17T00:42:14Z) - Argus++: Robust Real-time Activity Detection for Unconstrained Video
Streams with Overlapping Cube Proposals [85.76513755331318]
Argus++は、制約のないビデオストリームを分析するための堅牢なリアルタイムアクティビティ検出システムである。
システム全体としては、スタンドアロンのコンシューマレベルのハードウェア上でのリアルタイム処理に最適化されている。
論文 参考訳(メタデータ) (2022-01-14T03:35:22Z) - Temporal Action Segmentation with High-level Complex Activity Labels [29.17792724210746]
我々は、高レベルなアクティビティラベルのみを入力とするアクションセグメントを学習する。
本稿では,ビデオ中の構成要素を自動検出する新しいアクション発見フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-15T09:50:42Z) - Exploring Temporal Context and Human Movement Dynamics for Online Action
Detection in Videos [32.88517041655816]
時間的文脈と人間の動きのダイナミクスは、オンライン行動検出に効果的に利用することができる。
提案手法は,様々な最先端アーキテクチャを用いて,抽出した特徴を適切に組み合わせて動作検出を改善する。
論文 参考訳(メタデータ) (2021-06-26T08:34:19Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z) - Gabriella: An Online System for Real-Time Activity Detection in
Untrimmed Security Videos [72.50607929306058]
本研究では,未トリミングされたセキュリティビデオ上でのアクティビティ検出をリアルタイムに行うオンラインシステムを提案する。
提案手法は, チューブレット抽出, 活性分類, オンラインチューブレットマージの3段階からなる。
提案手法の有効性を,100fps(100fps)と最新技術による性能評価で実証した。
論文 参考訳(メタデータ) (2020-04-23T22:20:10Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z) - Joint Visual-Temporal Embedding for Unsupervised Learning of Actions in
Untrimmed Sequences [25.299599341774204]
本稿では,共同視覚-時間埋め込み空間に基づく映像系列の教師なし学習手法を提案する。
提案手法は、連続したビデオフレームに存在する視覚的手がかりから有意義な視覚的、時間的埋め込みを提供することができることを示す。
論文 参考訳(メタデータ) (2020-01-29T22:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。