論文の概要: Towards Dense People Detection with Deep Learning and Depth images
- arxiv url: http://arxiv.org/abs/2007.07171v1
- Date: Tue, 14 Jul 2020 16:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 14:35:26.173346
- Title: Towards Dense People Detection with Deep Learning and Depth images
- Title(参考訳): 深層学習と深部画像を用いた高密度人物検出に向けて
- Authors: David Fuentes-Jimenez and Cristina Losada-Gutierrez and David
Casillas-Perez and Javier Macias-Guarasa and Roberto Martin-Lopez and Daniel
Pizarro and Carlos A.Luna
- Abstract要約: 本稿では,1つの深度画像から複数の人物を検出するDNNシステムを提案する。
我々のニューラルネットワークは深度画像を処理し、画像座標の確率マップを出力する。
我々は、この戦略が効果的であることを示し、トレーニング中に使用するものと異なるシーンで動作するように一般化したネットワークを創出する。
- 参考スコア(独自算出の注目度): 9.376814409561726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a DNN-based system that detects multiple people from a
single depth image. Our neural network processes a depth image and outputs a
likelihood map in image coordinates, where each detection corresponds to a
Gaussian-shaped local distribution, centered at the person's head. The
likelihood map encodes both the number of detected people and their 2D image
positions, and can be used to recover the 3D position of each person using the
depth image and the camera calibration parameters. Our architecture is compact,
using separated convolutions to increase performance, and runs in real-time
with low budget GPUs. We use simulated data for initially training the network,
followed by fine tuning with a relatively small amount of real data. We show
this strategy to be effective, producing networks that generalize to work with
scenes different from those used during training. We thoroughly compare our
method against the existing state-of-the-art, including both classical and
DNN-based solutions. Our method outperforms existing methods and can accurately
detect people in scenes with significant occlusions.
- Abstract(参考訳): 本稿では,1つの深度画像から複数の人物を検出するDNNシステムを提案する。
我々のニューラルネットワークは深度画像を処理し、画像座標の確率マップを出力し、各検出は人の頭を中心にしたガウス型の局所分布に対応する。
検出された人物の数と2D画像位置の両方をエンコードし、奥行き画像とカメラキャリブレーションパラメータを用いて各人物の3D位置を復元することができる。
私たちのアーキテクチャはコンパクトで、分離された畳み込みを使ってパフォーマンスを高め、低予算gpuでリアルタイムに動作します。
まずネットワークのトレーニングにシミュレーションデータを使用し,その後,比較的少ない実データで微調整を行う。
我々は,この戦略が効果的であることを示し,訓練中に使用する場面とは異なる場面を一般化するネットワークを創り出す。
我々は,従来のDNNベースのソリューションを含め,既存の最先端技術と比較した。
本手法は既存の手法よりも優れており,有意な咬合を有するシーンの人物を正確に検出できる。
関連論文リスト
- Understanding Depth Map Progressively: Adaptive Distance Interval
Separation for Monocular 3d Object Detection [38.96129204108353]
いくつかの単分子3D検出技術は、深度推定タスクからの補助深度マップに依存している。
本稿では,深度マップの新たな視点を取り入れたAdaptive Distance Interval Separation Network (ADISN) というフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T13:32:53Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from
Depth Maps [66.24554680709417]
協調環境における労働者とロボットの正確な3D位置を知ることは、いくつかの実際のアプリケーションを可能にする。
本研究では、深度デバイスと深度ニューラルネットワークに基づく非侵襲的なフレームワークを提案し、外部カメラからロボットの3次元ポーズを推定する。
論文 参考訳(メタデータ) (2022-07-06T08:52:12Z) - GCNDepth: Self-supervised Monocular Depth Estimation based on Graph
Convolutional Network [11.332580333969302]
この研究は、深度マップの量的および質的な理解を高めるために、一連の改善を伴う新しいソリューションをもたらす。
グラフ畳み込みネットワーク(GCN)は、非ユークリッドデータ上の畳み込みを処理でき、位相構造内の不規則な画像領域に適用することができる。
提案手法は,公的なKITTIおよびMake3Dデータセットに対して,高い予測精度で89%の精度で同等かつ有望な結果を与える。
論文 参考訳(メタデータ) (2021-12-13T16:46:25Z) - VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction [71.83308989022635]
本稿では、ディープニューラルネットワークを用いた従来の2段階フレームワークの複製により、解釈可能性と結果の精度が向上することを提唱する。
ネットワークは,1)深部MVS技術を用いた局所深度マップの局所計算,2)深部マップと画像の特徴を融合させて単一のTSDFボリュームを構築する。
異なる視点から取得した画像間のマッチング性能を改善するために,PosedConvと呼ばれる回転不変な3D畳み込みカーネルを導入する。
論文 参考訳(メタデータ) (2021-08-19T11:33:58Z) - DPDnet: A Robust People Detector using Deep Learning with an Overhead
Depth Camera [9.376814409561726]
本研究では,高信頼度で1つの頭上深度画像から複数の人物を検出する手法を提案する。
DPDnetと呼ばれるニューラルネットワークは、残層に基づく2つの完全畳み込みエンコーダデコーダニューラルブロックに基づいている。
実験の結果、PDNetは最先端の手法よりも優れており、3つの異なる公開データセットで99%以上のアキュラシーを達成している。
論文 参考訳(メタデータ) (2020-06-01T16:28:25Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - DELTAS: Depth Estimation by Learning Triangulation And densification of
Sparse points [14.254472131009653]
多視点ステレオ (MVS) は, 能動深度センシングの精度と単眼深度推定の実用性の間の黄金平均値である。
3次元畳み込みニューラルネットワーク(CNN)を用いたコストボリュームベースのアプローチにより、MVSシステムの精度が大幅に向上した。
まず、(a)興味点の記述子を検出して評価し、次に(b)興味点の小さな集合をマッチングして三角測量し、最後に(c)CNNを用いてこのスパースな3D点の集合を密度化することで、効率的な深さ推定手法を提案する。
論文 参考訳(メタデータ) (2020-03-19T17:56:41Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。