論文の概要: Towards Accurate and Efficient 3D Object Detection for Autonomous Driving: A Mixture of Experts Computing System on Edge
- arxiv url: http://arxiv.org/abs/2507.04123v1
- Date: Sat, 05 Jul 2025 18:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.026596
- Title: Towards Accurate and Efficient 3D Object Detection for Autonomous Driving: A Mixture of Experts Computing System on Edge
- Title(参考訳): 自動運転のための高精度かつ効率的な3次元物体検出に向けて:エッジ上でのエキスパートコンピューティングシステムの混合
- Authors: Linshen Liu, Boyan Su, Junyue Jiang, Guanlin Wu, Cong Guo, Ceyu Xu, Hao Frank Yang,
- Abstract要約: 本稿では,低レイテンシかつ高精度な3Dオブジェクト検出を同時に実現する自律走行車(AV)のための最適計算システムを提案する。
このシステムは、LiDARとカメラデータを効果的に融合させることで、スパース3D点雲と高密度2D画像の相補的な強度を利用して、堅牢なマルチモーダル表現を生成する。
- 参考スコア(独自算出の注目度): 2.372616758549089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents Edge-based Mixture of Experts (MoE) Collaborative Computing (EMC2), an optimal computing system designed for autonomous vehicles (AVs) that simultaneously achieves low-latency and high-accuracy 3D object detection. Unlike conventional approaches, EMC2 incorporates a scenario-aware MoE architecture specifically optimized for edge platforms. By effectively fusing LiDAR and camera data, the system leverages the complementary strengths of sparse 3D point clouds and dense 2D images to generate robust multimodal representations. To enable this, EMC2 employs an adaptive multimodal data bridge that performs multi-scale preprocessing on sensor inputs, followed by a scenario-aware routing mechanism that dynamically dispatches features to dedicated expert models based on object visibility and distance. In addition, EMC2 integrates joint hardware-software optimizations, including hardware resource utilization optimization and computational graph simplification, to ensure efficient and real-time inference on resource-constrained edge devices. Experiments on open-source benchmarks clearly show the EMC2 advancements as a end-to-end system. On the KITTI dataset, it achieves an average accuracy improvement of 3.58% and a 159.06% inference speedup compared to 15 baseline methods on Jetson platforms, with similar performance gains on the nuScenes dataset, highlighting its capability to advance reliable, real-time 3D object detection tasks for AVs.
- Abstract(参考訳): 本稿では、低レイテンシかつ高精度な3Dオブジェクト検出を同時に実現する自動運転車(AV)向けに設計された最適計算システムである、エッジベースのMixture of Experts (MoE) Collaborative Computing (EMC2)を提案する。
従来のアプローチとは異なり、EMC2はエッジプラットフォーム向けに特別に最適化されたシナリオ対応のMoEアーキテクチャを取り入れている。
このシステムは、LiDARとカメラデータを効果的に融合させることで、スパース3D点雲と高密度2D画像の相補的な強度を利用して、堅牢なマルチモーダル表現を生成する。
これを実現するために、EMC2は、センサー入力に対してマルチスケールの事前処理を行う適応型マルチモーダルデータブリッジを使用し、続いて、オブジェクトの可視性と距離に基づいた専用の専門家モデルに機能を動的にディスパッチするシナリオ対応ルーティング機構を使用する。
さらに、EMC2は、ハードウェアリソース利用の最適化や計算グラフの単純化を含む、ハードウェアとソフトウェアの共同最適化を統合し、リソース制約エッジデバイス上での効率的なリアルタイム推論を保証する。
オープンソースのベンチマークの実験は、EMC2の進歩をエンドツーエンドシステムとして明らかに示している。
KITTIデータセットでは、Jetsonプラットフォーム上の15のベースラインメソッドと比較して3.58%の平均精度改善と159.06%の推論スピードアップを実現し、nuScenesデータセットでも同様のパフォーマンス向上を実現し、AVの信頼性の高いリアルタイム3Dオブジェクト検出タスクを前進させる能力を強調している。
関連論文リスト
- LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection [28.319440934322728]
MV2DFusionは、高度なクエリベースの融合機構を通じて両方の世界の強みを統合するマルチモーダル検出フレームワークである。
私たちのフレームワークの柔軟性は、任意のイメージとポイントクラウドベースの検出器との統合を可能にし、その適応性と将来の進歩の可能性を示しています。
論文 参考訳(メタデータ) (2024-08-12T06:46:05Z) - E2E-MFD: Towards End-to-End Synchronous Multimodal Fusion Detection [21.185032466325737]
マルチモーダル核融合検出のための新しいエンドツーエンドアルゴリズムであるE2E-MFDを紹介する。
E2E-MFDはプロセスの合理化を図り、単一のトレーニングフェーズで高いパフォーマンスを達成する。
複数の公開データセットに対する広範なテストは、E2E-MFDの優れた機能を明らかにします。
論文 参考訳(メタデータ) (2024-03-14T12:12:17Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Joint Multi-Object Detection and Tracking with Camera-LiDAR Fusion for
Autonomous Driving [6.396288020763144]
カメラとLiDARの融合による多対象追跡(MOT)は、オブジェクト検出、親和性計算、データ関連の正確な結果をリアルタイムに要求する。
本稿では、オンライン共同検出・追跡手法と自律運転用ロバストデータアソシエーションを備えた効率的なマルチモーダルMOTフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-10T11:17:05Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Multi-scale Interaction for Real-time LiDAR Data Segmentation on an
Embedded Platform [62.91011959772665]
LiDARデータのリアルタイムセマンティックセグメンテーションは、自動運転車にとって不可欠である。
ポイントクラウド上で直接動作する現在のアプローチでは、複雑な空間集約操作を使用する。
本稿では,マルチスケールインタラクションネットワーク(MINet)と呼ばれるプロジェクションベースの手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T19:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。