論文の概要: Enhanced Multi-View Pedestrian Detection Using Probabilistic Occupancy Volume
- arxiv url: http://arxiv.org/abs/2503.10982v1
- Date: Fri, 14 Mar 2025 01:05:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:35.611552
- Title: Enhanced Multi-View Pedestrian Detection Using Probabilistic Occupancy Volume
- Title(参考訳): 確率的占有量を用いた多視点歩行者検出
- Authors: Reef Alturki, Adrian Hilton, Jean-Yves Guillemaut,
- Abstract要約: 閉塞は、単一視点からの歩行者検出において重要な課題となる。
マルチビュー検出の最近の進歩は、地上面に特徴を戦略的に投影する早期融合戦略を利用した。
本稿では,従来の3次元再構築手法を有効活用し,より深い多視点歩行者検出を実現する新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 21.393389135740712
- License:
- Abstract: Occlusion poses a significant challenge in pedestrian detection from a single view. To address this, multi-view detection systems have been utilized to aggregate information from multiple perspectives. Recent advances in multi-view detection utilized an early-fusion strategy that strategically projects the features onto the ground plane, where detection analysis is performed. A promising approach in this context is the use of 3D feature-pulling technique, which constructs a 3D feature volume of the scene by sampling the corresponding 2D features for each voxel. However, it creates a 3D feature volume of the whole scene without considering the potential locations of pedestrians. In this paper, we introduce a novel model that efficiently leverages traditional 3D reconstruction techniques to enhance deep multi-view pedestrian detection. This is accomplished by complementing the 3D feature volume with probabilistic occupancy volume, which is constructed using the visual hull technique. The probabilistic occupancy volume focuses the model's attention on regions occupied by pedestrians and improves detection accuracy. Our model outperforms state-of-the-art models on the MultiviewX dataset, with an MODA of 97.3%, while achieving competitive performance on the Wildtrack dataset.
- Abstract(参考訳): 閉塞は、単一視点からの歩行者検出において重要な課題となる。
これを解決するために,複数視点からの情報収集に多視点検出システムを用いた。
マルチビュー検出の最近の進歩は、早期融合戦略を利用して特徴を地上面に戦略的に投影し、検出分析を行った。
この文脈で有望なアプローチは、3D特徴推進技術であり、各ボクセルの対応する2D特徴量をサンプリングすることでシーンの3D特徴量を構築する。
しかし、歩行者の潜在的な位置を考慮せずに、シーン全体の3D特徴量を生成する。
本稿では,従来の3次元再構築手法を有効活用し,より深い多視点歩行者検出を実現する新しいモデルを提案する。
これは3次元特徴量と確率的占有量とを補完することにより実現される。
確率的占有量(probabilistic occupancy volume)は、歩行者が占める地域に対するモデルの注意を集中させ、検出精度を向上させる。
我々のモデルは、MultiviewXデータセットの最先端モデルを97.3%のMODAで上回り、Wildtrackデータセットの競合性能を実現している。
関連論文リスト
- MonoDINO-DETR: Depth-Enhanced Monocular 3D Object Detection Using a Vision Foundation Model [2.0624236247076397]
本研究では,視覚変換器(ViT)をベースとした基礎モデルをバックボーンとし,世界的特徴を抽出して深度推定を行う。
検出変換器(DETR)アーキテクチャを統合し、深度推定と物体検出性能を1段階的に改善する。
提案モデルは、KITTIの3Dベンチマークと高標高レース環境から収集したカスタムデータセットの評価により、最近の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-02-01T04:37:13Z) - ViewFormer: Exploring Spatiotemporal Modeling for Multi-View 3D Occupancy Perception via View-Guided Transformers [9.271932084757646]
3Dの占有は、前景と背景を物理的空間で区別することなく、全体のシーンをグリッドマップに表現する。
本稿では,効果的な多視点特徴集約のための学習優先視点アテンション機構を提案する。
既存の高品質データセットの上に構築されたベンチマークであるFlowOcc3Dを紹介します。
論文 参考訳(メタデータ) (2024-05-07T13:15:07Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - 3D Random Occlusion and Multi-Layer Projection for Deep Multi-Camera
Pedestrian Localization [6.929027496437192]
提案した3DROM法は,多視点歩行者検出のための最先端のディープラーニング手法と比較して,性能が大幅に向上した。
論文 参考訳(メタデータ) (2022-07-22T06:15:20Z) - Neural Volumetric Object Selection [126.04480613166194]
マルチプレーン画像(MPI)やニューラルレイディアンスフィールド(NeRF)のような,神経体積の3次元表現における物体の選択手法を提案する。
提案手法では,前景と背景の2次元ユーザを1つの視点で記述し,対象物の3次元セグメンテーションを自動的に推定する。
論文 参考訳(メタデータ) (2022-05-30T08:55:20Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。