論文の概要: V2F-Net: Explicit Decomposition of Occluded Pedestrian Detection
- arxiv url: http://arxiv.org/abs/2104.03106v1
- Date: Wed, 7 Apr 2021 13:12:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 12:48:34.703828
- Title: V2F-Net: Explicit Decomposition of Occluded Pedestrian Detection
- Title(参考訳): V2F-Net:Occluded Pedestrian Detectionの明示的な分解
- Authors: Mingyang Shang and Dawei Xiang and Zhicheng Wang and Erjin Zhou
- Abstract要約: v2f-netはオクルード歩行者検出を可視領域検出と全身推定に明示的に分解する。
V2F-Netは、可視領域検出ネットワーク(VDN)とフルボディ推定ネットワーク(FEN)の2つのサブネットワークで構成される。
さらに全身の推定を改善するために, EPM ( Embedding-based Part-aware Module) を提案する。
- 参考スコア(独自算出の注目度): 8.490082777982906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occlusion is very challenging in pedestrian detection. In this paper, we
propose a simple yet effective method named V2F-Net, which explicitly
decomposes occluded pedestrian detection into visible region detection and full
body estimation. V2F-Net consists of two sub-networks: Visible region Detection
Network (VDN) and Full body Estimation Network (FEN). VDN tries to localize
visible regions and FEN estimates full-body box on the basis of the visible
box. Moreover, to further improve the estimation of full body, we propose a
novel Embedding-based Part-aware Module (EPM). By supervising the visibility
for each part, the network is encouraged to extract features with essential
part information. We experimentally show the effectiveness of V2F-Net by
conducting several experiments on two challenging datasets. V2F-Net achieves
5.85% AP gains on CrowdHuman and 2.24% MR-2 improvements on CityPersons
compared to FPN baseline. Besides, the consistent gain on both one-stage and
two-stage detector validates the generalizability of our method.
- Abstract(参考訳): 閉塞は歩行者検出において非常に困難である。
本稿では,閉鎖歩行者検出を視覚領域検出と全体推定に明示的に分解する,V2F-Netというシンプルな手法を提案する。
V2F-Netは、VDN(Visible Region Detection Network)とFEN(Full Body Estimation Network)の2つのサブネットワークで構成されている。
VDNは可視領域をローカライズしようと試み、FENは可視ボックスに基づいてフルボディボックスを推定する。
さらに,全体推定の精度向上を図るため,新しいエンベディング方式のPart-Aware Module (EPM)を提案する。
各部分の可視性を監視することにより、ネットワークは必須部分情報で特徴を抽出することを奨励する。
本稿では,V2F-Netの有効性を2つの挑戦的データセットを用いて実験的に検証した。
V2F-Netは、FPNベースラインと比較して、CrowdHumanで5.85%、CityPersonsで2.24%改善した。
さらに, 1段階と2段階の両方の検出器の一貫したゲインは, この手法の一般化性を検証する。
関連論文リスト
- NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - F2DNet: Fast Focal Detection Network for Pedestrian Detection [3.9126596709410673]
2段階検出器は、歩行者検出と同様に物体検出の最先端技術である。
本稿では,現在の2段階検出器の冗長性を排除した新しい2段階検出アーキテクチャであるF2DNetを提案する。
当社のF2DNetは、1つのデータセットでトレーニングすると、それぞれシティパーソン、カルテックペデストリアン、ユーロシティパーソンのデータセットで8.7%、2.2%、および6.1%のMR-2を達成しています。
論文 参考訳(メタデータ) (2022-03-04T14:13:38Z) - SEA: Bridging the Gap Between One- and Two-stage Detector Distillation
via SEmantic-aware Alignment [76.80165589520385]
細粒度情報を抽象化する性質から,SEA (SEmantic-Aware Alignment) 蒸留法を命名した。
1段検出器と2段検出器の両方において、挑戦的な物体検出タスクにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2022-03-02T04:24:05Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - AFDetV2: Rethinking the Necessity of the Second Stage for Object
Detection from Point Clouds [15.72821609622122]
我々は点雲からの3次元検出のための1段アンカーフリーネットワークを開発した。
我々は、バックボーンの自己校正畳み込みブロック、キーポイント補助監視、マルチタスクヘッドのIoU予測分岐を使用する。
私たちは2021年のリアルタイム3Dチャレンジで1位を獲得しました。
論文 参考訳(メタデータ) (2021-12-16T21:22:17Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector
Representation for 3D Object Detection [100.60209139039472]
点雲からの正確な3次元検出を行うために,PointVoxel Region based Convolution Neural Networks (PVRCNNs)を提案する。
提案するPV-RCNNは,Openデータセットと高競争性KITTIベンチマークの両方において,従来の最先端3D検出方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-01-31T14:51:49Z) - AFD-Net: Adaptive Fully-Dual Network for Few-Shot Object Detection [8.39479809973967]
Few-shot Object Detection (FSOD) は、未確認の物体に迅速に適応できる検出器の学習を目的としている。
既存の方法では、共有コンポーネントを用いて分類と局所化のサブタスクを実行することで、この問題を解決している。
本稿では,2つのサブタスクの明示的な分解を考慮し,両者の情報を活用して特徴表現の強化を図ることを提案する。
論文 参考訳(メタデータ) (2020-11-30T10:21:32Z) - Mutual-Supervised Feature Modulation Network for Occluded Pedestrian
Detection [10.497367073305806]
そこで本稿では,閉鎖型歩行者検出をより効果的に扱うために,Multual-Supervised Feature Modulation (MSFM) ネットワークを提案する。
MSFMモジュールは、同じ歩行者に対応するフルボディボックスと可視ボディボックスの類似度損失を算出する。
提案手法は,2つの課題のある歩行者データセット上での他の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2020-10-21T03:42:22Z) - GDN: A Coarse-To-Fine (C2F) Representation for End-To-End 6-DoF Grasp
Detection [23.480036081293242]
本稿では,GDN(Grasp Detection Network)を提案する。
これまでの2段階のアプローチと比較して、アーキテクチャは少なくとも20倍高速です。
本稿では,回転と遷移の誤差を考慮した新しいAPベースの計量法を提案する。
論文 参考訳(メタデータ) (2020-10-21T01:01:50Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。