論文の概要: OmniPD: One-Step Person Detection in Top-View Omnidirectional Indoor
Scenes
- arxiv url: http://arxiv.org/abs/2204.06846v1
- Date: Thu, 14 Apr 2022 09:41:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 21:51:13.759687
- Title: OmniPD: One-Step Person Detection in Top-View Omnidirectional Indoor
Scenes
- Title(参考訳): OmniPD:トップビュー全方位屋内シーンにおけるワンステップ人物検出
- Authors: Jingrui Yu, Roman Seidel, Gangolf Hirtz
- Abstract要約: 畳み込みニューラルネット(CNN)を用いた一段階一方向屋内シーン検出法を提案する。
本手法は、視点変換を伴わない全方位画像において、複数の人物の境界ボックスを直接予測する。
本手法は他のCNNベースの物体検出器にも適用可能であり,全方位画像における他の物体の検出に応用できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 4.297070083645049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a one-step person detector for topview omnidirectional indoor
scenes based on convolutional neural networks (CNNs). While state of the art
person detectors reach competitive results on perspective images, missing CNN
architectures as well as training data that follows the distortion of
omnidirectional images makes current approaches not applicable to our data. The
method predicts bounding boxes of multiple persons directly in omnidirectional
images without perspective transformation, which reduces overhead of pre- and
post-processing and enables real-time performance. The basic idea is to utilize
transfer learning to fine-tune CNNs trained on perspective images with data
augmentation techniques for detection in omnidirectional images. We fine-tune
two variants of Single Shot MultiBox detectors (SSDs). The first one uses
Mobilenet v1 FPN as feature extractor (moSSD). The second one uses ResNet50 v1
FPN (resSSD). Both models are pre-trained on Microsoft Common Objects in
Context (COCO) dataset. We fine-tune both models on PASCAL VOC07 and VOC12
datasets, specifically on class person. Random 90-degree rotation and random
vertical flipping are used for data augmentation in addition to the methods
proposed by original SSD. We reach an average precision (AP) of 67.3 % with
moSSD and 74.9 % with resSSD onthe evaluation dataset. To enhance the
fine-tuning process, we add a subset of HDA Person dataset and a subset of
PIROPOdatabase and reduce the number of perspective images to PASCAL VOC07. The
AP rises to 83.2 % for moSSD and 86.3 % for resSSD, respectively. The average
inference speed is 28 ms per image for moSSD and 38 ms per image for resSSD
using Nvidia Quadro P6000. Our method is applicable to other CNN-based object
detectors and can potentially generalize for detecting other objects in
omnidirectional images.
- Abstract(参考訳): 本稿では,畳み込みニューラルネットワーク(CNN)に基づく一段階の人物検出手法を提案する。
アートパーソン検出器の状態は遠近法画像の競合結果に達する一方で、cnnアーキテクチャの欠如と、全方位画像の歪みを追従するトレーニングデータによって、現在のデータに適用できないアプローチが生まれている。
本手法は、視線変換のない全方位画像における複数の人物の境界ボックスを直接予測し、前処理と後処理のオーバーヘッドを低減し、リアルタイムのパフォーマンスを実現する。
基本的な考え方は、遠近法画像で訓練されたcnnに転送学習を活用し、全方位画像におけるデータ拡張技術を用いて検出することである。
単ショットマルチボックス検出器(SSD)の2つの変種を微調整する。
まず、Mobilenet v1 FPNを機能抽出器(moSSD)として使用する。
2つ目はResNet50 v1 FPN(ResSSD)である。
どちらのモデルもMicrosoft Common Objects in Context (COCO)データセットで事前トレーニングされている。
PASCAL VOC07とVOC12のデータセット、特にクラスパーソンのモデルを微調整する。
ランダム90度回転とランダム垂直反転は、元のSSDが提案した手法に加えて、データ拡張に使用される。
mossdでは平均精度 (ap) が67.3 %、評価データセットでは74.9 %に達する。
微調整プロセスを強化するため,HDA PersonデータセットのサブセットとPIROPOdatabaseのサブセットを追加し,視点画像の数をPASCAL VOC07に削減する。
APは、moSSDが83.2%、resSSDが86.3%まで上昇する。
平均推論速度はMoSSDでは28ms、ResSSDでは38ms、Nvidia Quadro P6000では38msである。
本手法は他のcnnベースの物体検出器に適用でき、全方位画像における他の物体の検出を一般化することができる。
関連論文リスト
- Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - M&M3D: Multi-Dataset Training and Efficient Network for Multi-view 3D
Object Detection [2.5158048364984564]
カメラのみのデータとBird's-Eye-View Mapを用いたマルチビュー3Dオブジェクト検出のためのネットワーク構造を提案した。
私の仕事は、現在の重要なドメイン適応とビジュアルデータ転送に基づいています。
本研究は,3次元情報を利用可能な意味情報として利用し,視覚的言語伝達設計にブレンドした2次元多視点画像特徴について述べる。
論文 参考訳(メタデータ) (2023-11-02T04:28:51Z) - Randomize to Generalize: Domain Randomization for Runway FOD Detection [1.4249472316161877]
細い物体検出は、小型化、低解像度化、オクルージョン化、背景クラッタ、照明条件、被写体対画像比の小さいため困難である。
本稿では,SRIA(Synthetic Image Augmentation)の新たな2段階手法を提案する。
検出精度は初期41%からOODテストセットの92%に改善した。
論文 参考訳(メタデータ) (2023-09-23T05:02:31Z) - Human Pose Estimation in Monocular Omnidirectional Top-View Images [3.07869141026886]
全方位画像におけるキーポイント検出タスクのためのCNNのトレーニングと評価のための新しいデータセットを提案する。
トレーニングデータセットであるTheODORE+は50,000の画像で構成され、3Dレンダリングエンジンによって作成される。
評価のために、2つのシナリオと701フレーム、1シーンあたり最大8人までの実際のPoseFESデータセットをキャプチャして注釈付けした。
論文 参考訳(メタデータ) (2023-04-17T11:52:04Z) - Collaboration Helps Camera Overtake LiDAR in 3D Detection [49.58433319402405]
カメラのみの3D検出は、LiDARベースの検出システムと比較して、オブジェクトを3D空間にローカライズするための簡単なソリューションを提供する。
提案するコラボレーティブカメラのみの3D検出(CoCa3D)により,エージェントは通信を通じて相互に補完情報を共有できる。
その結果、CoCa3Dは従来のSOTA性能をDAIR-V2Xで44.21%改善し、OPV2V+で30.60%、AP@70でCoPerception-UAVs+で12.59%向上した。
論文 参考訳(メタデータ) (2023-03-23T03:50:41Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - DeepDarts: Modeling Keypoints as Objects for Automatic Scorekeeping in
Darts using a Single Camera [75.34178733070547]
既存のマルチカメラソリューションは、スチールチップダーツの自動スコア管理に非常に高価であり、ほとんどのプレイヤーにはアクセスできない。
キーポイント検出に対する新しいアプローチを提案し,任意のカメラアングルから撮影した単一の画像からダートスコアを予測する。
我々は、このアイデアにまつわる深い畳み込みニューラルネットワークを開発し、ダート位置とダートボードの校正点を予測する。
論文 参考訳(メタデータ) (2021-05-20T16:25:57Z) - Towards Dense People Detection with Deep Learning and Depth images [9.376814409561726]
本稿では,1つの深度画像から複数の人物を検出するDNNシステムを提案する。
我々のニューラルネットワークは深度画像を処理し、画像座標の確率マップを出力する。
我々は、この戦略が効果的であることを示し、トレーニング中に使用するものと異なるシーンで動作するように一般化したネットワークを創出する。
論文 参考訳(メタデータ) (2020-07-14T16:43:02Z) - Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance
Disparity Estimation [51.17232267143098]
ステレオ画像から3次元物体を検出するための新しいシステムDisp R-CNNを提案する。
我々は、LiDAR点雲を必要とせずに、統計的形状モデルを用いて、密度の異なる擬似地下構造を生成する。
KITTIデータセットの実験によると、LiDARの基盤構造がトレーニング時に利用できない場合でも、Disp R-CNNは競争性能を達成し、平均精度で従来の最先端手法を20%上回っている。
論文 参考訳(メタデータ) (2020-04-07T17:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。