論文の概要: E^2TAD: An Energy-Efficient Tracking-based Action Detector
- arxiv url: http://arxiv.org/abs/2204.04416v1
- Date: Sat, 9 Apr 2022 07:52:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 16:05:51.816487
- Title: E^2TAD: An Energy-Efficient Tracking-based Action Detector
- Title(参考訳): E^2TAD:エネルギー効率の高い追従型アクション検出器
- Authors: Xin Hu, Zhenyu Wu, Hao-Yu Miao, Siqi Fan, Taiyu Long, Zhenyu Hu,
Pengcheng Pi, Yi Wu, Zhou Ren, Zhangyang Wang, Gang Hua
- Abstract要約: 本稿では,事前定義されたキーアクションを高精度かつ効率的にローカライズするためのトラッキングベースソリューションを提案する。
UAV-Video Track of 2021 Low-Power Computer Vision Challenge (LPCVC)で優勝した。
- 参考スコア(独自算出の注目度): 78.90585878925545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video action detection (spatio-temporal action localization) is usually the
starting point for human-centric intelligent analysis of videos nowadays. It
has high practical impacts for many applications across robotics, security,
healthcare, etc. The two-stage paradigm of Faster R-CNN inspires a standard
paradigm of video action detection in object detection, i.e., firstly
generating person proposals and then classifying their actions. However, none
of the existing solutions could provide fine-grained action detection to the
"who-when-where-what" level. This paper presents a tracking-based solution to
accurately and efficiently localize predefined key actions spatially (by
predicting the associated target IDs and locations) and temporally (by
predicting the time in exact frame indices). This solution won first place in
the UAV-Video Track of 2021 Low-Power Computer Vision Challenge (LPCVC).
- Abstract(参考訳): 映像行動検出(spatio-temporal action localization)は、映像の人間中心のインテリジェントな分析の出発点である。
ロボット工学、セキュリティ、ヘルスケアなど、多くのアプリケーションに対して、非常に実用的な影響があります。
Faster R-CNNの2段階のパラダイムは、オブジェクト検出におけるビデオアクション検出の標準パラダイム、すなわち、まず人の提案を生成し、次にアクションを分類する。
しかし、既存のソリューションでは、"who-when-where-what"レベルに対してきめ細かいアクション検出ができない。
本稿では,(関連する目標idと位置の予測によって)空間的および(正確なフレームインデックスの時間を予測することにより)時間的に,予め定義されたキーアクションを正確にかつ効率的にローカライズするトラッキングベースソリューションを提案する。
このソリューションは2021年のUAV-Video Track of 2021 Low-Power Computer Vision Challenge (LPCVC)で初登場した。
関連論文リスト
- Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - DeepLocalization: Using change point detection for Temporal Action Localization [2.4502578110136946]
DeepLocalizationは、ドライバーの行動を監視するために明示的に調整されたアクションのリアルタイムローカライゼーションのために考案された革新的なフレームワークである。
我々の戦略は、ビデオ大言語モデル(Video Large Language Model, Video-LLM)と並行して、グラフベースの変更点検出を時間内のピンポイント行動に活用し、アクティビティを正確に分類する、という2つのアプローチを採用している。
論文 参考訳(メタデータ) (2024-04-18T15:25:59Z) - Detecting Every Object from Events [24.58024539462497]
本稿では,イベントベースの視覚において,クラスに依存しない高速なオープンワールドオブジェクト検出を実現するためのアプローチとして,イベント中のすべてのオブジェクトの検出(DEOE)を提案する。
私たちのコードはhttps://github.com/Hatins/DEOEで公開されています。
論文 参考訳(メタデータ) (2024-04-08T08:20:53Z) - SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。
SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-29T05:13:43Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Argus++: Robust Real-time Activity Detection for Unconstrained Video
Streams with Overlapping Cube Proposals [85.76513755331318]
Argus++は、制約のないビデオストリームを分析するための堅牢なリアルタイムアクティビティ検出システムである。
システム全体としては、スタンドアロンのコンシューマレベルのハードウェア上でのリアルタイム処理に最適化されている。
論文 参考訳(メタデータ) (2022-01-14T03:35:22Z) - Single Run Action Detector over Video Stream -- A Privacy Preserving
Approach [13.247009439182769]
本稿では,リアルタイムなプライバシ保護行動検出装置であるSingle Run Action Detector(S-RAD)を提案する。
UCF-SportsとUR Fallデータセットの結果は、State-of-the-Artアプローチに匹敵する精度を示している。
論文 参考訳(メタデータ) (2021-02-05T19:27:38Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。