論文の概要: PIDNet: An Efficient Network for Dynamic Pedestrian Intrusion Detection
- arxiv url: http://arxiv.org/abs/2009.00312v1
- Date: Tue, 1 Sep 2020 09:34:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 01:17:56.498097
- Title: PIDNet: An Efficient Network for Dynamic Pedestrian Intrusion Detection
- Title(参考訳): PIDNet:動的歩行者侵入検知のための効率的なネットワーク
- Authors: Jingchen Sun, Jiming Chen, Tao Chen, Jiayuan Fan, Shibo He
- Abstract要約: 移動カメラによって歩行者が関心領域(AoI)を侵入するかどうかを判断する視覚に基づく動的歩行者侵入検知(PID)は,モバイル監視において重要な課題である。
本稿では,この問題を解決するために,新しい,効率的なマルチタスクディープニューラルネットワークPIDNetを提案する。
PIDNetは、移動カメラが捉えたビデオフレームから動的に変化するAoIを正確にセグメンテーションし、生成されたAoI含有領域から歩行者を素早く検出する2つの要因を考慮して設計されている。
- 参考スコア(独自算出の注目度): 22.316826418265666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-based dynamic pedestrian intrusion detection (PID), judging whether
pedestrians intrude an area-of-interest (AoI) by a moving camera, is an
important task in mobile surveillance. The dynamically changing AoIs and a
number of pedestrians in video frames increase the difficulty and computational
complexity of determining whether pedestrians intrude the AoI, which makes
previous algorithms incapable of this task. In this paper, we propose a novel
and efficient multi-task deep neural network, PIDNet, to solve this problem.
PIDNet is mainly designed by considering two factors: accurately segmenting the
dynamically changing AoIs from a video frame captured by the moving camera and
quickly detecting pedestrians from the generated AoI-contained areas. Three
efficient network designs are proposed and incorporated into PIDNet to reduce
the computational complexity: 1) a special PID task backbone for feature
sharing, 2) a feature cropping module for feature cropping, and 3) a lighter
detection branch network for feature compression. In addition, considering
there are no public datasets and benchmarks in this field, we establish a
benchmark dataset to evaluate the proposed network and give the corresponding
evaluation metrics for the first time. Experimental results show that PIDNet
can achieve 67.1% PID accuracy and 9.6 fps inference speed on the proposed
dataset, which serves as a good baseline for the future vision-based dynamic
PID study.
- Abstract(参考訳): 移動カメラによって歩行者が関心領域(AoI)を侵入するかどうかを判断する視覚に基づく動的歩行者侵入検知(PID)は,モバイル監視において重要な課題である。
動的に変化するAoIとビデオフレーム内の多くの歩行者は、AoIを歩行者が侵入するかどうかを判断する難易度と計算の複雑さを増大させる。
本稿では,この問題を解決するために,新しい,効率的なマルチタスクディープニューラルネットワークPIDNetを提案する。
PIDNetは、移動カメラが捉えたビデオフレームから動的に変化するAoIを正確にセグメンテーションし、生成されたAoI含有領域から歩行者を素早く検出する2つの要因を考慮して設計されている。
3つの効率的なネットワーク設計が提案され、計算複雑性を低減するためにPIDNetに組み込まれている。
1)機能共有のための特別なPIDタスクバックボーン。
2 特徴収穫用の特徴収穫モジュール、及び
3)特徴圧縮のためのより軽い検出分岐ネットワーク。
また,この分野に公開データセットやベンチマークが存在しないことを考慮し,提案するネットワークを評価し,対応する評価指標を初めて提示するベンチマークデータセットを構築した。
実験の結果、PIDNetは67.1%のPID精度と9.6fpsの推論速度を実現でき、将来のビジョンベースの動的PID研究のベースラインとして役立つことがわかった。
関連論文リスト
- A Point-Based Approach to Efficient LiDAR Multi-Task Perception [49.91741677556553]
PAttFormerは、ポイントクラウドにおける共同セマンティックセグメンテーションとオブジェクト検出のための効率的なマルチタスクアーキテクチャである。
他のLiDARベースのマルチタスクアーキテクチャとは異なり、提案したPAttFormerはタスク固有のポイントクラウド表現のために別の機能エンコーダを必要としない。
マルチタスク学習では,mIouでは+1.7%,mAPでは3Dオブジェクト検出では+1.7%,LiDARセマンティックセマンティックセグメンテーションは+1.7%向上した。
論文 参考訳(メタデータ) (2024-04-19T11:24:34Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - DroneAttention: Sparse Weighted Temporal Attention for Drone-Camera
Based Activity Recognition [2.705905918316948]
ドローン搭載カメラを用いた人間行動認識(HAR)は近年,コンピュータビジョン研究コミュニティから大きな関心を集めている。
本研究では, 疎サンプリングされたビデオフレームをグローバルに重み付けした時間的注意力を得るために, 新たにSparse Weighted Temporal Attention (SWTA) モジュールを提案する。
提案されたモデルでは、各データセットで72.76%、92.56%、78.86%の精度が得られた。
論文 参考訳(メタデータ) (2022-12-07T00:33:40Z) - Using Detection, Tracking and Prediction in Visual SLAM to Achieve
Real-time Semantic Mapping of Dynamic Scenarios [70.70421502784598]
RDS-SLAMは、一般的に使用されているIntel Core i7 CPUのみを使用して、動的シナリオのためのオブジェクトレベルでのセマンティックマップをリアルタイムで構築することができる。
我々は, TUM RGB-DデータセットにおけるRDS-SLAMを評価し, 動的シナリオにおいて, RDS-SLAMはフレームあたり30.3msで動作可能であることを示した。
論文 参考訳(メタデータ) (2022-10-10T11:03:32Z) - PiFeNet: Pillar-Feature Network for Real-Time 3D Pedestrian Detection
from Point Cloud [64.12626752721766]
点雲からの歩行者検出に有効なリアルタイム3D検出器であるPiFeNetを提案する。
歩行者を検知する際の3次元物体検出フレームワークが直面する課題として, 柱の特徴の少ない点と, 点群における歩行者の占有面積の小さい点があげられる。
提案手法は,26fps/秒(FPS)で走行しながら,KITTI歩行者BEVと3Dリーダーボードで第1位にランクされ,Nuscenes検出ベンチマークの最先端性能を実現している。
論文 参考訳(メタデータ) (2021-12-31T13:41:37Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - Sequential End-to-end Network for Efficient Person Search [7.3658840620058115]
人物検出と人物再識別(re-ID)を共同で解決することを目的とした人物探索
既存の研究は、Faster R-CNNに基づくエンドツーエンドネットワークを設計している。
優れた特徴を抽出するためのシーケンシャルエンドツーエンドネットワーク(SeqNet)を提案する。
論文 参考訳(メタデータ) (2021-03-18T10:28:24Z) - FairMOT: On the Fairness of Detection and Re-Identification in Multiple
Object Tracking [92.48078680697311]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要な問題である。
本稿では,FairMOTと呼ばれる,アンカーフリーなオブジェクト検出アーキテクチャCenterNetをベースとした,シンプルかつ効果的なアプローチを提案する。
このアプローチは、検出と追跡の両方において高い精度を達成する。
論文 参考訳(メタデータ) (2020-04-04T08:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。