論文の概要: ETAD: A Unified Framework for Efficient Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2205.07134v1
- Date: Sat, 14 May 2022 21:16:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 17:01:52.790277
- Title: ETAD: A Unified Framework for Efficient Temporal Action Detection
- Title(参考訳): ETAD: 効果的な時間的行動検出のための統合フレームワーク
- Authors: Shuming Liu, Mengmeng Xu, Chen Zhao, Xu Zhao, Bernard Ghanem
- Abstract要約: 時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 70.21104995731085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Untrimmed video understanding such as temporal action detection (TAD) often
suffers from the pain of huge demand for computing resources. Because of long
video durations and limited GPU memory, most action detectors can only operate
on pre-extracted features rather than the original videos, and they still
require a lot of computation to achieve high detection performance. To
alleviate the heavy computation problem in TAD, in this work, we first propose
an efficient action detector with detector proposal sampling, based on the
observation that performance saturates at a small number of proposals. This
detector is designed with several important techniques, such as LSTM-boosted
temporal aggregation and cascaded proposal refinement to achieve high detection
quality as well as low computational cost. To enable joint optimization of this
action detector and the feature encoder, we also propose encoder gradient
sampling, which selectively back-propagates through video snippets and
tremendously reduces GPU memory consumption. With the two sampling strategies
and the effective detector, we build a unified framework for efficient
end-to-end temporal action detection (ETAD), making real-world untrimmed video
understanding tractable. ETAD achieves state-of-the-art performance on both
THUMOS-14 and ActivityNet-1.3. Interestingly, on ActivityNet-1.3, it reaches
37.78% average mAP, while only requiring 6 mins of training time and 1.23 GB
memory based on pre-extracted features. With end-to-end training, it reduces
the GPU memory footprint by more than 70% with even higher performance (38.21%
average mAP), as compared with traditional end-to-end methods. The code is
available at https://github.com/sming256/ETAD.
- Abstract(参考訳): 時間的行動検出(tad)のような未解決の映像理解は、しばしばコンピューティングリソースに対する膨大な需要の苦痛に苦しむ。
長いビデオの持続時間とgpuメモリの制限のため、ほとんどのアクション検出器は、オリジナルのビデオではなく、事前抽出された機能でしか動作できず、高い検出性能を達成するために多くの計算を必要とする。
本研究は,TADにおける重い計算問題を緩和するため,まず,少数の提案で性能が飽和する観察結果に基づいて,検出提案サンプリングを用いた効率的な動作検出法を提案する。
この検出器は、LSTMをブーイングした時間的アグリゲーションやカスケードされた提案の改良など、いくつかの重要な技術で設計されており、高い検出品質と低い計算コストを実現している。
また,この動作検出器と特徴エンコーダの協調最適化を実現するために,ビデオスニペットを通して選択的にバックプロパゲーションを行い,GPUメモリ消費を大幅に削減するエンコーダ勾配サンプリングを提案する。
2つのサンプリング戦略と効果的な検出器を用いて、効率的なエンドツーエンドの時間的動作検出(etad)のための統一フレームワークを構築し、実世界のビデオ理解を扱いやすくする。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
興味深いことに、ActivityNet-1.3では平均mAPは37.78%、トレーニング時間は6分、メモリは1.23GBである。
エンドツーエンドトレーニングでは、従来のエンドツーエンドメソッドと比較して、gpuメモリフットプリントを70%以上削減し、さらに高いパフォーマンス(平均38.21%)を実現している。
コードはhttps://github.com/sming256/etadで入手できる。
関連論文リスト
- Intelligent Video Recording Optimization using Activity Detection for Surveillance Systems [0.0]
本稿では,アクティビティ検出に焦点をあてたビデオ記録ソリューションを提案する。
提案手法は,フレームサブトラクションによる動き検出とYOLOv9を用いた物体検出を組み合わせたハイブリッド手法を用いる。
開発したモデルでは,車検出では0.855,人検出では0.884の精度測定値が得られた。
論文 参考訳(メタデータ) (2024-11-04T21:44:03Z) - Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - Efficient One-stage Video Object Detection by Exploiting Temporal
Consistency [35.16197118579414]
1段検出器は、画像データ上の従来の2段検出器と比較して、競争精度と速度の速さを達成している。
本稿では,まず,ビデオ物体検出に一段検出器を用いる際の計算ボトルネックを解析する。
本稿では,計算ボトルネックに対処し,効率的なワンステージVODを実現するための,シンプルで効率的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-14T15:32:07Z) - TempNet: Temporal Attention Towards the Detection of Animal Behaviour in
Videos [63.85815474157357]
本稿では,映像中の生物学的行動を検出するための,効率的なコンピュータビジョンと深層学習に基づく手法を提案する。
TempNetはエンコーダブリッジと残留ブロックを使用して、2段階の空間的、そして時間的、エンコーダでモデル性能を維持する。
本研究では,サブルフィッシュ (Anoplopoma fimbria) 幼虫の検出への応用を実証する。
論文 参考訳(メタデータ) (2022-11-17T23:55:12Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - Motion Vector Extrapolation for Video Object Detection [0.0]
MOVEXは、一般的なCPUベースのシステムで低レイテンシのビデオオブジェクト検出を可能にする。
提案手法は,任意の対象検出器のベースライン遅延を著しく低減することを示す。
さらなるレイテンシ低減は、元のレイテンシよりも最大25倍低いもので、最小限の精度で達成できる。
論文 参考訳(メタデータ) (2021-04-18T17:26:37Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z) - Joint Detection and Tracking in Videos with Identification Features [36.55599286568541]
本稿では,ビデオ検出,追跡,再識別機能の最初の共同最適化を提案する。
提案手法はMOTの最先端に到達し,オンライントラッカーにおけるUA-DETRAC'18追跡課題のうち,第1位,第3位にランクインした。
論文 参考訳(メタデータ) (2020-05-21T21:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。