論文の概要: STCrowd: A Multimodal Dataset for Pedestrian Perception in Crowded
Scenes
- arxiv url: http://arxiv.org/abs/2204.01026v1
- Date: Sun, 3 Apr 2022 08:26:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 09:03:11.428038
- Title: STCrowd: A Multimodal Dataset for Pedestrian Perception in Crowded
Scenes
- Title(参考訳): STCrowd: 群衆シーンにおける歩行者の知覚のためのマルチモーダルデータセット
- Authors: Peishan Cong and Xinge Zhu and Feng Qiao and Yiming Ren and Xidong
Peng and Yuenan Hou and Lan Xu and Ruigang Yang and Dinesh Manocha and Yuexin
Ma
- Abstract要約: 3D空間における歩行者の正確な検出と追跡は、回転、ポーズ、スケールの大きなバリエーションのために困難である。
既存のベンチマークは2Dアノテーションのみを提供するか、あるいは低密度の歩行者分布を持つ限定的な3Dアノテーションを持つ。
混み合ったシナリオにおける歩行者認識アルゴリズムをよりよく評価するために,大規模なマルチモーダルデータセットSTCrowdを導入する。
- 参考スコア(独自算出の注目度): 78.95447086305381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately detecting and tracking pedestrians in 3D space is challenging due
to large variations in rotations, poses and scales. The situation becomes even
worse for dense crowds with severe occlusions. However, existing benchmarks
either only provide 2D annotations, or have limited 3D annotations with
low-density pedestrian distribution, making it difficult to build a reliable
pedestrian perception system especially in crowded scenes. To better evaluate
pedestrian perception algorithms in crowded scenarios, we introduce a
large-scale multimodal dataset,STCrowd. Specifically, in STCrowd, there are a
total of 219 K pedestrian instances and 20 persons per frame on average, with
various levels of occlusion. We provide synchronized LiDAR point clouds and
camera images as well as their corresponding 3D labels and joint IDs. STCrowd
can be used for various tasks, including LiDAR-only, image-only, and
sensor-fusion based pedestrian detection and tracking. We provide baselines for
most of the tasks. In addition, considering the property of sparse global
distribution and density-varying local distribution of pedestrians, we further
propose a novel method, Density-aware Hierarchical heatmap Aggregation (DHA),
to enhance pedestrian perception in crowded scenes. Extensive experiments show
that our new method achieves state-of-the-art performance for pedestrian
detection on various datasets.
- Abstract(参考訳): 3D空間における歩行者の正確な検出と追跡は、回転、ポーズ、スケールの大きなバリエーションのために困難である。
密集した密集した集団にとって、状況はさらに悪化する。
しかし、既存のベンチマークは2Dアノテーションのみを提供するか、低密度の歩行者分布を持つ限られた3Dアノテーションを持つかのいずれかであり、特に混雑したシーンにおいて信頼性の高い歩行者認識システムを構築するのが困難である。
混み合ったシナリオにおいて歩行者知覚アルゴリズムをより良く評価するために,大規模マルチモーダルデータセットstcrowdを導入する。
特にSTCrowdには、平均して219件の歩行者インスタンスと20件の人件数があり、さまざまなレベルの閉塞がある。
我々は、同期したLiDAR点雲とカメラ画像、対応する3Dラベルと関節IDを提供する。
STCrowdは、LiDARのみ、画像のみ、センサー融合に基づく歩行者検出とトラッキングなど、さまざまなタスクに使用できる。
私たちはほとんどのタスクのベースラインを提供します。
さらに, 歩行者の疎グローバル分布と密度変化局所分布の特質を考慮し, 混み合ったシーンにおける歩行者の認識を高めるために, 密度対応階層型ヒートマップアグリゲーション(DHA)を提案する。
大規模な実験により,本手法は各種データセットにおける歩行者検出の最先端性能を実現する。
関連論文リスト
- RoScenes: A Large-scale Multi-view 3D Dataset for Roadside Perception [98.76525636842177]
RoScenesは、最大規模のマルチビューロードサイド認識データセットである。
私たちのデータセットは、驚くべき21.13Mの3Dアノテーションを64,000$m2$で達成しています。
論文 参考訳(メタデータ) (2024-05-16T08:06:52Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - Regulating Intermediate 3D Features for Vision-Centric Autonomous
Driving [26.03800936700545]
本稿では,ボリュームレンダリングの助けを借りて,中間的な高密度な3次元特徴を規制することを提案する。
Occ3DデータセットとnuScenesデータセットの実験結果から、ヴァンパイアは密度の高い3D特徴の微細で適切な抽出を容易にすることが示された。
論文 参考訳(メタデータ) (2023-12-19T04:09:05Z) - Unsupervised Multi-view Pedestrian Detection [12.882317991955228]
2D-3Dマッピングによる多視点歩行者検出器の学習におけるアノテーションの必要性を排除するために,unsupervised Multi-view Pedestrian Detection approach (UMPD)を提案する。
SISは、疑似ラベルとして2次元歩行者マスクに変換される多視点画像の教師なし表現を抽出することを提案する。
GVDは、多視点2D画像を3Dボリュームにエンコードし、3Dから2Dマッピングで訓練された2Dから3Dの幾何学的投影を通して、ボクセルの密度と色を予測する。
論文 参考訳(メタデータ) (2023-05-21T13:27:02Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - 3D Random Occlusion and Multi-Layer Projection for Deep Multi-Camera
Pedestrian Localization [6.929027496437192]
提案した3DROM法は,多視点歩行者検出のための最先端のディープラーニング手法と比較して,性能が大幅に向上した。
論文 参考訳(メタデータ) (2022-07-22T06:15:20Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - A Flow Base Bi-path Network for Cross-scene Video Crowd Understanding in
Aerial View [93.23947591795897]
本稿では,これらの課題に対処し,ドローンから収集した視覚的データから参加者を自動的に理解する。
クロスシーンテストで発生する背景雑音を軽減するために, 二重ストリーム群カウントモデルを提案する。
極暗環境下での集団密度推定問題に対処するために,ゲームグランドセフトオートV(GTAV)によって生成された合成データを導入する。
論文 参考訳(メタデータ) (2020-09-29T01:48:24Z) - SemanticVoxels: Sequential Fusion for 3D Pedestrian Detection using
LiDAR Point Cloud and Semantic Segmentation [4.350338899049983]
我々は、異なるレベルで融合を適用できるように、PointPaintingの一般化を提案する。
本研究では,セマンティックボクセルが3次元および鳥の視線歩行者検出ベンチマークにおいて,最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2020-09-25T14:52:32Z) - Cityscapes 3D: Dataset and Benchmark for 9 DoF Vehicle Detection [7.531596091318718]
我々はCityscapes 3Dを提案し、Cityscapesのオリジナルのデータセットを拡張し、あらゆる種類の車両に対して3Dバウンディングボックスアノテーションを提供する。
既存のデータセットとは対照的に、3DアノテーションはステレオRGB画像のみを使用してラベル付けされ、9自由度をすべてキャプチャしました。
さらに、我々はCityscapesベンチマークスイートを、新しいアノテーションに基づく3D車両検出と、この研究で提示されたメトリクスで補完する。
論文 参考訳(メタデータ) (2020-06-14T10:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。