論文の概要: PFSD: A Multi-Modal Pedestrian-Focus Scene Dataset for Rich Tasks in Semi-Structured Environments
- arxiv url: http://arxiv.org/abs/2502.15342v1
- Date: Fri, 21 Feb 2025 09:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:06:51.185284
- Title: PFSD: A Multi-Modal Pedestrian-Focus Scene Dataset for Rich Tasks in Semi-Structured Environments
- Title(参考訳): PFSD:半構造化環境におけるリッチタスクのためのマルチモーダル歩行者・フォーカスシーンデータセット
- Authors: Yueting Liu, Hanshi Wang, Yunfei Lei, Zhengjun Zha, Weiming Hu, Jin Gao,
- Abstract要約: 本稿では, 半構造化シーンに, nuScenesの形式を付加したマルチモーダルなPedestrian-Focused Sceneデータセットを提案する。
また,密集・隠蔽シナリオにおける歩行者検出のためのHMFN(Hybrid Multi-Scale Fusion Network)を提案する。
- 参考スコア(独自算出の注目度): 69.6546605719329
- License:
- Abstract: Recent advancements in autonomous driving perception have revealed exceptional capabilities within structured environments dominated by vehicular traffic. However, current perception models exhibit significant limitations in semi-structured environments, where dynamic pedestrians with more diverse irregular movement and occlusion prevail. We attribute this shortcoming to the scarcity of high-quality datasets in semi-structured scenes, particularly concerning pedestrian perception and prediction. In this work, we present the multi-modal Pedestrian-Focused Scene Dataset(PFSD), rigorously annotated in semi-structured scenes with the format of nuScenes. PFSD provides comprehensive multi-modal data annotations with point cloud segmentation, detection, and object IDs for tracking. It encompasses over 130,000 pedestrian instances captured across various scenarios with varying densities, movement patterns, and occlusions. Furthermore, to demonstrate the importance of addressing the challenges posed by more diverse and complex semi-structured environments, we propose a novel Hybrid Multi-Scale Fusion Network (HMFN). Specifically, to detect pedestrians in densely populated and occluded scenarios, our method effectively captures and fuses multi-scale features using a meticulously designed hybrid framework that integrates sparse and vanilla convolutions. Extensive experiments on PFSD demonstrate that HMFN attains improvement in mean Average Precision (mAP) over existing methods, thereby underscoring its efficacy in addressing the challenges of 3D pedestrian detection in complex semi-structured environments. Coding and benchmark are available.
- Abstract(参考訳): 近年の自律運転知覚の進歩は、車体交通に支配される構造環境における異常な機能を明らかにしている。
しかし、現在の知覚モデルは、より多様な不規則な動きと閉塞を持つ動的な歩行者が普及する半構造化環境において、重大な制限を呈している。
この欠点は、半構造化シーンにおける高品質なデータセットの不足、特に歩行者の知覚と予測に関するものである。
本研究では,多モードのPedestrian-Focused Scene Dataset(PFSD)について述べる。
PFSDは、トラッキングのためのポイントクラウドセグメンテーション、検出、オブジェクトIDを含む包括的なマルチモーダルデータアノテーションを提供する。
様々なシナリオにまたがって、さまざまな密度、動きのパターン、オクルージョンを持つ、13万以上の歩行者のインスタンスを含んでいる。
さらに,より多様で複雑な半構造化環境がもたらす課題に対処することの重要性を示すために,HMFN(Hybrid Multi-Scale Fusion Network)を提案する。
具体的には,密集型・密集型シナリオの歩行者を検知するために,スパースとバニラの畳み込みを統合した巧妙に設計されたハイブリッドフレームワークを用いて,マルチスケールの特徴を効果的に捉え,融合する。
PFSDに関する大規模な実験により、HMFNは既存の方法よりも平均精度(mAP)が向上し、複雑な半構造化環境での3次元歩行者検出の課題に対処する上での有効性が強調された。
コーディングとベンチマークが利用可能だ。
関連論文リスト
- LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - An Enhanced Classification Method Based on Adaptive Multi-Scale Fusion for Long-tailed Multispectral Point Clouds [67.96583737413296]
長距離分布を持つMPCに対する適応的マルチスケール融合に基づく拡張型分類法を提案する。
トレーニングセット生成段階では、スパースラベル付きデータセットからトレーニングサンプルを確実に生成するグリッドバランスサンプリング戦略が設計されている。
特徴学習の段階では,異なるスケールの土地被覆の浅い特徴を融合させるため,マルチスケールの特徴融合モジュールが提案されている。
論文 参考訳(メタデータ) (2024-12-16T03:21:20Z) - Semantic Scene Completion Based 3D Traversability Estimation for Off-Road Terrains [10.521569910467072]
オフロード環境は、自動運転車にとって重要な課題である。
主に構造化された環境のために設計された伝統的な知覚アルゴリズムは、しばしばこれらの条件下で失敗する。
本稿では, ORDformer を用いて, 前向きの視点から, 高密度の移動可能な占有率予測を行う。
論文 参考訳(メタデータ) (2024-12-11T08:36:36Z) - One for All: Multi-Domain Joint Training for Point Cloud Based 3D Object Detection [71.78795573911512]
textbfOneDet3Dは、異なるドメイン間での3D検出に対処する汎用的なワン・ツー・オール・モデルである。
本稿では、データ干渉問題に対処するため、ルーティング機構によって誘導される散乱とコンテキストにおけるドメイン認識を提案する。
完全なスパース構造とアンカーフリーヘッドは、さらに大きなスケールの差のある点雲を収容する。
論文 参考訳(メタデータ) (2024-11-03T14:21:56Z) - Uni$^2$Det: Unified and Universal Framework for Prompt-Guided Multi-dataset 3D Detection [64.08296187555095]
Uni$2$Detは3D検出のための統一的で普遍的なマルチデータセットトレーニングのためのフレームワークである。
マルチデータセット3D検出のためのマルチステージプロンプトモジュールを提案する。
ゼロショットクロスデータセット転送の結果は,提案手法の一般化能力を検証する。
論文 参考訳(メタデータ) (2024-09-30T17:57:50Z) - Multimodal Collaboration Networks for Geospatial Vehicle Detection in Dense, Occluded, and Large-Scale Events [29.86323896541765]
大規模災害では, 災害現場の物体検出能力に頼って, 最適な救助経路の計画を立てる。
既存の手法は、通常RGBのモダリティに基づいており、混み合った環境で同じ色やテクスチャでターゲットを区別するのに苦労している。
密集・隠蔽車検出のためのマルチモーダル協調ネットワーク MuDet を提案する。
論文 参考訳(メタデータ) (2024-05-14T00:51:15Z) - M3BAT: Unsupervised Domain Adaptation for Multimodal Mobile Sensing with Multi-Branch Adversarial Training [5.128670847334003]
マルチモーダルモバイルセンシングは、健康、健康、行動、文脈に関する推論に広く用いられている。
トレーニングセット内のデータの分布は、実世界のデータの分布、デプロイメント環境と異なる。
M3BATは,マルチブランチ対向学習を用いたマルチモーダル・モバイルセンシングのための教師なしドメイン適応である。
論文 参考訳(メタデータ) (2024-04-26T13:09:35Z) - STCrowd: A Multimodal Dataset for Pedestrian Perception in Crowded
Scenes [78.95447086305381]
3D空間における歩行者の正確な検出と追跡は、回転、ポーズ、スケールの大きなバリエーションのために困難である。
既存のベンチマークは2Dアノテーションのみを提供するか、あるいは低密度の歩行者分布を持つ限定的な3Dアノテーションを持つ。
混み合ったシナリオにおける歩行者認識アルゴリズムをよりよく評価するために,大規模なマルチモーダルデータセットSTCrowdを導入する。
論文 参考訳(メタデータ) (2022-04-03T08:26:07Z) - PSE-Match: A Viewpoint-free Place Recognition Method with Parallel
Semantic Embedding [9.265785042748158]
PSE-Matchは3次元ポイントクラウドモデルから分離されたセマンティック属性の並列意味解析に基づく視点自由場所認識手法である。
PSE-Matchは、分岐場所学習ネットワークを組み込んで、球面調和領域を通じて異なる意味的属性を並列にキャプチャする。
論文 参考訳(メタデータ) (2021-08-01T22:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。