論文の概要: Lightweight LiDAR-Camera 3D Dynamic Object Detection and Multi-Class Trajectory Prediction
- arxiv url: http://arxiv.org/abs/2504.13647v1
- Date: Fri, 18 Apr 2025 11:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 15:51:33.447727
- Title: Lightweight LiDAR-Camera 3D Dynamic Object Detection and Multi-Class Trajectory Prediction
- Title(参考訳): 軽量LiDARカメラ3次元動的物体検出とマルチクラス軌道予測
- Authors: Yushen He, Lei Zhao, Tianchen Deng, Zipeng Fang, Weidong Chen,
- Abstract要約: サービス移動ロボットは、タスクを実行している間に動的オブジェクトを避ける必要があることが多い。
本稿では,3次元物体検出と軌道予測のための軽量なマルチモーダルフレームワークを提案する。
本システムは,3次元空間における歩行者,車両,ライダーのリアルタイム認識を実現するために,LiDARとカメラ入力を統合している。
- 参考スコア(独自算出の注目度): 7.415417400188903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Service mobile robots are often required to avoid dynamic objects while performing their tasks, but they usually have only limited computational resources. So we present a lightweight multi-modal framework for 3D object detection and trajectory prediction. Our system synergistically integrates LiDAR and camera inputs to achieve real-time perception of pedestrians, vehicles, and riders in 3D space. The framework proposes two novel modules: 1) a Cross-Modal Deformable Transformer (CMDT) for object detection with high accuracy and acceptable amount of computation, and 2) a Reference Trajectory-based Multi-Class Transformer (RTMCT) for efficient and diverse trajectory prediction of mult-class objects with flexible trajectory lengths. Evaluations on the CODa benchmark demonstrate superior performance over existing methods across detection (+2.03% in mAP) and trajectory prediction (-0.408m in minADE5 of pedestrians) metrics. Remarkably, the system exhibits exceptional deployability - when implemented on a wheelchair robot with an entry-level NVIDIA 3060 GPU, it achieves real-time inference at 13.2 fps. To facilitate reproducibility and practical deployment, we release the related code of the method at https://github.com/TossherO/3D_Perception and its ROS inference version at https://github.com/TossherO/ros_packages.
- Abstract(参考訳): サービス移動ロボットは、タスク実行中に動的オブジェクトを避ける必要があることが多いが、通常は限られた計算資源しか持たない。
そこで我々は,3次元物体検出と軌道予測のための軽量なマルチモーダルフレームワークを提案する。
本システムでは,3次元空間における歩行者,車両,ライダーのリアルタイム認識を実現するために,LiDARとカメラ入力を相乗的に統合する。
このフレームワークは2つの新しいモジュールを提案する。
1) 高精度かつ許容可能な計算量を有する物体検出用クロスモーダル変形型変圧器(CMDT)
2) フレキシブルなトラジェクトリ長を持つマルチクラスオブジェクトの効率的かつ多様なトラジェクトリ予測のための参照トラジェクトリベースマルチクラストランス (RTMCT) 。
CODaベンチマークの評価は、検出(mAPでは+2.03%)と軌跡予測(minADE5では-0.408m)にまたがる既存の手法よりも優れた性能を示している。
注目すべきは、このシステムは例外的なデプロイ性である - エントリーレベルのNVIDIA 3060 GPUを備えた車椅子ロボットに実装されると、13.2 fpsでリアルタイムの推論が達成される。
再現性と実際のデプロイを容易にするため、メソッドの関連コードはhttps://github.com/TossherO/3D_Perceptionで、ROS推論バージョンはhttps://github.com/TossherO/ros_packagesでリリースします。
関連論文リスト
- Street Gaussians without 3D Object Tracker [86.62329193275916]
既存の方法は、標準空間における動的オブジェクトを再構築するために、オブジェクトポーズの労働集約的な手動ラベリングに依存している。
本研究では,3次元オブジェクト融合戦略における2次元ディープトラッカーの関連性を利用して,安定なオブジェクト追跡モジュールを提案する。
我々は、軌道誤差を自律的に補正し、見逃した検出を回復する暗黙の特徴空間に、モーションラーニング戦略を導入することで、避けられないトラッキングエラーに対処する。
論文 参考訳(メタデータ) (2024-12-07T05:49:42Z) - 3DMOTFormer: Graph Transformer for Online 3D Multi-Object Tracking [15.330384668966806]
最先端の3Dマルチオブジェクト追跡(MOT)アプローチは通常、Kalman Filterのような非学習モデルベースのアルゴリズムに依存している。
本稿では3DMOTFormerを提案する。この3D MOTフレームワークはトランスフォーマーアーキテクチャをベースに構築されている。
提案手法は, nuScenesバリデーションとテストスプリットでそれぞれ71.2%, AMOTA68.2%を達成している。
論文 参考訳(メタデータ) (2023-08-12T19:19:58Z) - FocalFormer3D : Focusing on Hard Instance for 3D Object Detection [97.56185033488168]
3次元物体検出における偽陰性(False negatives, FN)は、自動運転において潜在的に危険な状況を引き起こす可能性がある。
本研究では,マルチステージ方式でtextitFN を識別する汎用パイプラインである Hard Instance Probing (HIP) を提案する。
この手法をFocalFormer3Dとしてインスタンス化する。
論文 参考訳(メタデータ) (2023-08-08T20:06:12Z) - TrajectoryFormer: 3D Object Tracking Transformer with Predictive
Trajectory Hypotheses [51.60422927416087]
3Dマルチオブジェクトトラッキング(MOT)は、自律走行車やサービスロボットを含む多くのアプリケーションにとって不可欠である。
本稿では,新しいポイントクラウドベースの3DMOTフレームワークであるTrjectoryFormerを紹介する。
論文 参考訳(メタデータ) (2023-06-09T13:31:50Z) - ByteTrackV2: 2D and 3D Multi-Object Tracking by Associating Every
Detection Box [81.45219802386444]
マルチオブジェクトトラッキング(MOT)は、ビデオフレーム間のオブジェクトのバウンディングボックスとIDを推定することを目的としている。
低スコア検出ボックス内の真のオブジェクトをマイニングするための階層型データアソシエーション戦略を提案する。
3次元のシナリオでは、トラッカーが世界座標の物体速度を予測するのがずっと簡単である。
論文 参考訳(メタデータ) (2023-03-27T15:35:21Z) - Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D
Object Detection [20.161887223481994]
マルチビュー3Dオブジェクト検出のための長周期モデリングフレームワークStreamPETRを提案する。
StreamPETRは、単一フレームのベースラインと比較して、無視可能なコストでのみ、大幅なパフォーマンス向上を実現している。
軽量版は45.0%のmAPと31.7のFPSを実現し、2.3%のmAPと1.8倍の高速FPSを達成している。
論文 参考訳(メタデータ) (2023-03-21T15:19:20Z) - CAMO-MOT: Combined Appearance-Motion Optimization for 3D Multi-Object
Tracking with Camera-LiDAR Fusion [34.42289908350286]
3D Multi-object Track (MOT) は、連続的な動的検出時の一貫性を保証する。
LiDAR法で物体の不規則な動きを正確に追跡することは困難である。
複合外観運動最適化(CAMO-MOT)に基づく新しいカメラ-LiDAR融合3DMOTフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-06T14:41:38Z) - AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D
Object Detection [17.526914782562528]
我々はAutoAlign上に構築された高速で強力なマルチモーダル3D検出フレームワークであるAutoAlignV2を提案する。
我々の最良のモデルは、nuScenesテストのリーダーボード上で72.4 NDSに達し、新しい最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-07-21T06:17:23Z) - 2nd Place Solution for Waymo Open Dataset Challenge - Real-time 2D
Object Detection [26.086623067939605]
本稿では,画像から2次元物体を検出するリアルタイム手法を提案する。
我々は、加速度RTを活用して、検出パイプラインの推論時間を最適化する。
我々のフレームワークはNvidia Tesla V100 GPU上で45.8ms/frameのレイテンシを実現する。
論文 参考訳(メタデータ) (2021-06-16T11:32:03Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。