論文の概要: Learning better representations for crowded pedestrians in offboard LiDAR-camera 3D tracking-by-detection
- arxiv url: http://arxiv.org/abs/2505.16029v1
- Date: Wed, 21 May 2025 21:18:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.916909
- Title: Learning better representations for crowded pedestrians in offboard LiDAR-camera 3D tracking-by-detection
- Title(参考訳): オフボードLiDARカメラによる3次元位置検出における混雑歩行者の表現性向上
- Authors: Shichao Li, Peiliang Li, Qing Lian, Peng Yun, Xiaozhi Chen,
- Abstract要約: 我々は、LiDAR点雲とマルチビュー画像から歩行者軌道を再構築するオフボード自動ラベルシステムを構築した。
提案手法は, 3次元歩行者追跡性能を大幅に向上し, オートラベルの効率化に寄与する。
- 参考スコア(独自算出の注目度): 14.56852056332248
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Perceiving pedestrians in highly crowded urban environments is a difficult long-tail problem for learning-based autonomous perception. Speeding up 3D ground truth generation for such challenging scenes is performance-critical yet very challenging. The difficulties include the sparsity of the captured pedestrian point cloud and a lack of suitable benchmarks for a specific system design study. To tackle the challenges, we first collect a new multi-view LiDAR-camera 3D multiple-object-tracking benchmark of highly crowded pedestrians for in-depth analysis. We then build an offboard auto-labeling system that reconstructs pedestrian trajectories from LiDAR point cloud and multi-view images. To improve the generalization power for crowded scenes and the performance for small objects, we propose to learn high-resolution representations that are density-aware and relationship-aware. Extensive experiments validate that our approach significantly improves the 3D pedestrian tracking performance towards higher auto-labeling efficiency. The code will be publicly available at this HTTP URL.
- Abstract(参考訳): 混雑した都市環境で歩行者を知覚することは、学習に基づく自律的な知覚にとって難しい問題である。
3Dグラウンドの真実生成をスピードアップするのは、パフォーマンスに批判的ですが、非常に難しいです。
難易度には、捕獲された歩行者点雲の幅と、特定のシステム設計研究に適したベンチマークの欠如が含まれる。
この課題に対処するために、我々はまず、多視点LiDARカメラ3D多目的追跡ベンチマークを、密集した歩行者の詳細な分析のために収集した。
次に、LiDAR点雲と多視点画像から歩行者軌道を再構築するオフボード自動ラベルシステムを構築する。
混み合ったシーンの一般化能力の向上と小さなオブジェクトの性能向上を目的として,密度認識と関係認識を備えた高分解能表現の学習を提案する。
大規模な実験により, 提案手法は3次元歩行者追跡性能を向上し, オートラベル効率が向上することが確認された。
コードは、このHTTP URLで公開されます。
関連論文リスト
- Street Gaussians without 3D Object Tracker [86.62329193275916]
既存の方法は、標準空間における動的オブジェクトを再構築するために、オブジェクトポーズの労働集約的な手動ラベリングに依存している。
本研究では,3次元オブジェクト融合戦略における2次元ディープトラッカーの関連性を利用して,安定なオブジェクト追跡モジュールを提案する。
我々は、軌道誤差を自律的に補正し、見逃した検出を回復する暗黙の特徴空間に、モーションラーニング戦略を導入することで、避けられないトラッキングエラーに対処する。
論文 参考訳(メタデータ) (2024-12-07T05:49:42Z) - On Deep Learning for Geometric and Semantic Scene Understanding Using On-Vehicle 3D LiDAR [4.606106768645647]
3D LiDARポイントクラウドデータは、コンピュータビジョン、ロボティクス、自動運転におけるシーン認識に不可欠である。
我々は,パノラマ環境(近赤外)と反射率像を特徴とする,最初の高忠実度18チャネル3次元LiDARデータセットであるDurLARを提案する。
セグメンテーションの精度を向上させるために、Range-Aware Pointwise Distance Distribution (RAPiD) 機能と関連するRAPiD-Segアーキテクチャを導入する。
論文 参考訳(メタデータ) (2024-11-01T14:01:54Z) - Neural Rendering based Urban Scene Reconstruction for Autonomous Driving [8.007494499012624]
ニューラルな暗黙表面と放射場を組み合わせたフレームワークを用いたマルチモーダル3次元シーン再構成を提案する。
Dense 3Dリコンストラクションは、自動アノテーションバリデーションを含む自動走行に多くの応用がある。
我々は,挑戦的な自動車シーンの質的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-02-09T23:20:23Z) - Semantic and Articulated Pedestrian Sensing Onboard a Moving Vehicle [0.0]
車両の前方運動が大きいため,車載映像からの3次元再構成は困難である。
近年,3次元再構成を必要とせずに直接深度を推定できるLiDAR(Light Detection And Ranging)センサが普及している。
我々は、LiDARデータからの人間の知覚を明瞭にするためのベンチマークが、人間の知覚と交通の予測を増大させる可能性があると仮定する。
論文 参考訳(メタデータ) (2023-09-12T15:24:26Z) - Unsupervised Multi-view Pedestrian Detection [12.882317991955228]
2D-3Dマッピングによる多視点歩行者検出器の学習におけるアノテーションの必要性を排除するために,unsupervised Multi-view Pedestrian Detection approach (UMPD)を提案する。
SISは、疑似ラベルとして2次元歩行者マスクに変換される多視点画像の教師なし表現を抽出することを提案する。
GVDは、多視点2D画像を3Dボリュームにエンコードし、3Dから2Dマッピングで訓練された2Dから3Dの幾何学的投影を通して、ボクセルの密度と色を予測する。
論文 参考訳(メタデータ) (2023-05-21T13:27:02Z) - HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z) - Scalable and Real-time Multi-Camera Vehicle Detection,
Re-Identification, and Tracking [58.95210121654722]
理想化されたビデオストリームやキュレートされたビデオストリームの代わりに,リアルタイムで低解像度のCCTVを処理する,リアルタイムな都市規模のマルチカメラ車両追跡システムを提案する。
私たちの手法は、公共のリーダーボードで上位5人のパフォーマーにランク付けされています。
論文 参考訳(メタデータ) (2022-04-15T12:47:01Z) - STCrowd: A Multimodal Dataset for Pedestrian Perception in Crowded
Scenes [78.95447086305381]
3D空間における歩行者の正確な検出と追跡は、回転、ポーズ、スケールの大きなバリエーションのために困難である。
既存のベンチマークは2Dアノテーションのみを提供するか、あるいは低密度の歩行者分布を持つ限定的な3Dアノテーションを持つ。
混み合ったシナリオにおける歩行者認識アルゴリズムをよりよく評価するために,大規模なマルチモーダルデータセットSTCrowdを導入する。
論文 参考訳(メタデータ) (2022-04-03T08:26:07Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。