論文の概要: ZSTAD: Zero-Shot Temporal Activity Detection
- arxiv url: http://arxiv.org/abs/2003.05583v1
- Date: Thu, 12 Mar 2020 02:40:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 14:59:15.614174
- Title: ZSTAD: Zero-Shot Temporal Activity Detection
- Title(参考訳): ZSTAD:ゼロショット時効検出
- Authors: Lingling Zhang, Xiaojun Chang, Jun Liu, Minnan Luo, Sen Wang, Zongyuan
Ge, Alexander Hauptmann
- Abstract要約: 本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 107.63759089583382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An integral part of video analysis and surveillance is temporal activity
detection, which means to simultaneously recognize and localize activities in
long untrimmed videos. Currently, the most effective methods of temporal
activity detection are based on deep learning, and they typically perform very
well with large scale annotated videos for training. However, these methods are
limited in real applications due to the unavailable videos about certain
activity classes and the time-consuming data annotation. To solve this
challenging problem, we propose a novel task setting called zero-shot temporal
activity detection (ZSTAD), where activities that have never been seen in
training can still be detected. We design an end-to-end deep network based on
R-C3D as the architecture for this solution. The proposed network is optimized
with an innovative loss function that considers the embeddings of activity
labels and their super-classes while learning the common semantics of seen and
unseen activities. Experiments on both the THUMOS14 and the Charades datasets
show promising performance in terms of detecting unseen activities.
- Abstract(参考訳): ビデオ分析と監視の不可欠な部分は、時間的活動検出(temporal activity detection)である。
現在、時間的活動検出の最も効果的な方法はディープラーニングに基づいており、訓練のために大規模な注釈付きビデオで非常によく機能する。
しかし、これらの手法は特定のアクティビティクラスや時間を要するデータアノテーションに関するビデオが利用できないため、実際のアプリケーションでは制限されている。
この課題を解決するために,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新しいタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
提案するネットワークは,活動ラベルとそのスーパークラスの埋め込みを考慮し,目に見えない活動の共通意味を学習する革新的な損失関数を用いて最適化されている。
thumos14とcharadesデータセットの両方の実験は、目に見えないアクティビティを検出する点で有望なパフォーマンスを示している。
関連論文リスト
- Boundary-Denoising for Video Activity Localization [57.9973253014712]
本稿では,映像活動のローカライゼーション問題について,認知的視点から検討する。
具体的には,DenoiseLocというエンコーダデコーダモデルを提案する。
実験によると、DenoiseLocはいくつかのビデオアクティビティ理解タスクで%前進している。
論文 参考訳(メタデータ) (2023-04-06T08:48:01Z) - An Empirical Study of End-to-End Temporal Action Detection [82.64373812690127]
時間的行動検出(TAD)はビデオ理解において重要な課題である。
エンド・ツー・エンドの学習よりも、既存のほとんどの手法では、ヘッドオンリーの学習パラダイムを採用しています。
頭のみの学習よりもエンド・ツー・エンドの学習の利点を検証し、最大11%のパフォーマンス向上を観察する。
論文 参考訳(メタデータ) (2022-04-06T16:46:30Z) - Argus++: Robust Real-time Activity Detection for Unconstrained Video
Streams with Overlapping Cube Proposals [85.76513755331318]
Argus++は、制約のないビデオストリームを分析するための堅牢なリアルタイムアクティビティ検出システムである。
システム全体としては、スタンドアロンのコンシューマレベルのハードウェア上でのリアルタイム処理に最適化されている。
論文 参考訳(メタデータ) (2022-01-14T03:35:22Z) - Deep Learning-based Action Detection in Untrimmed Videos: A Survey [20.11911785578534]
ほとんどの現実世界のビデオは長く、興味をそそる部分がある。
非トリミングビデオにおける時間的活動検出のタスクは、アクションの時間的境界をローカライズすることを目的としている。
本稿では,非トリミングビデオにおける時間的行動検出のためのディープラーニングに基づくアルゴリズムの概要について述べる。
論文 参考訳(メタデータ) (2021-09-30T22:42:25Z) - Adversarial Background-Aware Loss for Weakly-supervised Temporal
Activity Localization [40.517438760096056]
近年,ビデオ内の時間的局所化活動が広く研究されている。
近年の進歩にもかかわらず、時間的活動の局所化を弱く制御する既存の手法は、ある活動が起こっていないことを認識するのに苦労している。
論文 参考訳(メタデータ) (2020-07-13T19:33:24Z) - Gabriella: An Online System for Real-Time Activity Detection in
Untrimmed Security Videos [72.50607929306058]
本研究では,未トリミングされたセキュリティビデオ上でのアクティビティ検出をリアルタイムに行うオンラインシステムを提案する。
提案手法は, チューブレット抽出, 活性分類, オンラインチューブレットマージの3段階からなる。
提案手法の有効性を,100fps(100fps)と最新技術による性能評価で実証した。
論文 参考訳(メタデータ) (2020-04-23T22:20:10Z) - Revisiting Few-shot Activity Detection with Class Similarity Control [107.79338380065286]
本稿では,提案回帰に基づく数ショットの時間的活動検出のためのフレームワークを提案する。
我々のモデルはエンドツーエンドのトレーニングが可能で、数ショットのアクティビティと未トリミングなテストビデオのフレームレートの違いを考慮しており、さらに数ショットのサンプルの恩恵を受けることができる。
論文 参考訳(メタデータ) (2020-03-31T22:02:38Z) - 3D ResNet with Ranking Loss Function for Abnormal Activity Detection in
Videos [6.692686655277163]
この研究は、最近の異常な活動検出の最先端の研究に動機づけられている。
時間的アノテーションがない場合、そのようなモデルは異常を検出しながら誤報をしがちである。
本稿では,異常行動検出タスクを実行しながら,誤警報率を最小化するタスクに焦点をあてる。
論文 参考訳(メタデータ) (2020-02-04T05:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。