論文の概要: Multistream Network for LiDAR and Camera-based 3D Object Detection in Outdoor Scenes
- arxiv url: http://arxiv.org/abs/2507.19304v1
- Date: Fri, 25 Jul 2025 14:20:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.991958
- Title: Multistream Network for LiDAR and Camera-based 3D Object Detection in Outdoor Scenes
- Title(参考訳): 屋外シーンにおけるLiDARとカメラによる3Dオブジェクト検出のためのマルチストリームネットワーク
- Authors: Muhammad Ibrahim, Naveed Akhtar, Haitian Wang, Saeed Anwar, Ajmal Mian,
- Abstract要約: LiDARとRGBデータの融合により、屋外の3Dオブジェクト検出精度が向上する可能性がある。
両データモダリティからタスク関連情報を的確に抽出するMultiStream Detection (MuStD) ネットワークを提案する。
- 参考スコア(独自算出の注目度): 59.78696921486972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fusion of LiDAR and RGB data has the potential to enhance outdoor 3D object detection accuracy. To address real-world challenges in outdoor 3D object detection, fusion of LiDAR and RGB input has started gaining traction. However, effective integration of these modalities for precise object detection task still remains a largely open problem. To address that, we propose a MultiStream Detection (MuStD) network, that meticulously extracts task-relevant information from both data modalities. The network follows a three-stream structure. Its LiDAR-PillarNet stream extracts sparse 2D pillar features from the LiDAR input while the LiDAR-Height Compression stream computes Bird's-Eye View features. An additional 3D Multimodal stream combines RGB and LiDAR features using UV mapping and polar coordinate indexing. Eventually, the features containing comprehensive spatial, textural and geometric information are carefully fused and fed to a detection head for 3D object detection. Our extensive evaluation on the challenging KITTI Object Detection Benchmark using public testing server at https://www.cvlibs.net/datasets/kitti/eval_object_detail.php?&result=d162ec699d6992040e34314d19ab7f5c217075e0 establishes the efficacy of our method by achieving new state-of-the-art or highly competitive results in different categories while remaining among the most efficient methods. Our code will be released through MuStD GitHub repository at https://github.com/IbrahimUWA/MuStD.git
- Abstract(参考訳): LiDARとRGBデータの融合により、屋外の3Dオブジェクト検出精度が向上する可能性がある。
屋外3Dオブジェクト検出における現実的な課題に対処するため,LiDARとRGB入力の融合が注目されている。
しかし、これらのモダリティを精度の高いオブジェクト検出タスクに効果的に統合することは、依然としてほとんど未解決の問題である。
そこで本稿では,MultiStream Detection (MuStD) ネットワークを提案する。
ネットワークは3ストリーム構造を踏襲する。
LiDAR-PillarNetストリームはLiDAR入力からスパース2D柱の特徴を抽出し、LiDAR-Height CompressionストリームはBird's-Eye View特徴を計算する。
追加の3D Multimodalストリームは、UVマッピングと極座標インデックスを用いたRGBとLiDARの機能を組み合わせたものだ。
最終的に、包括的空間情報、テクスチャ情報、幾何学情報を含む特徴を慎重に融合し、検出ヘッドに供給して3次元物体検出を行う。
https://www.cvlibs.net/datasets/kitti/eval_object_detail.php?
andresult=d162ec699d6992040e34314d19ab7f5c217075e0 is established the effective of our method by a new state-of-the-the-art or highly competitive results in different categories while remain among the most efficient method。
私たちのコードは、https://github.com/IbrahimUWA/MuStD.gitのMuStD GitHubリポジトリからリリースされます。
関連論文リスト
- Real-IAD D3: A Real-World 2D/Pseudo-3D/3D Dataset for Industrial Anomaly Detection [53.2590751089607]
Real-IAD D3は高精度なマルチモーダルデータセットであり、フォトメトリックステレオによって生成された擬似3Dモダリティが組み込まれている。
本稿では,RGB,点雲,擬似3次元深度情報を統合し,各モードの相補的強度を活用する効果的な手法を提案する。
本実験は,検出の堅牢性向上とIAD全体の性能向上におけるこれらのモダリティの重要性を強調した。
論文 参考訳(メタデータ) (2025-04-19T08:05:47Z) - Sparse Points to Dense Clouds: Enhancing 3D Detection with Limited LiDAR Data [68.18735997052265]
単分子と点雲に基づく3次元検出の利点を組み合わせたバランスの取れたアプローチを提案する。
本手法では,低コストで低解像度のセンサから得られる3Dポイントを少数必要としている。
3次元検出の精度は最先端の単分子検出法と比較して20%向上する。
論文 参考訳(メタデータ) (2024-04-10T03:54:53Z) - Fully Sparse Fusion for 3D Object Detection [69.32694845027927]
現在広く使われているマルチモーダル3D検出法は、通常、密度の高いBird-Eye-View特徴マップを使用するLiDARベースの検出器上に構築されている。
完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。
本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
論文 参考訳(メタデータ) (2023-04-24T17:57:43Z) - MSF3DDETR: Multi-Sensor Fusion 3D Detection Transformer for Autonomous
Driving [0.0]
MSF3DDETR: 画像とLiDAR機能を融合して検出精度を向上させるマルチセンサフュージョン3D検出変換器アーキテクチャを提案する。
我々のエンドツーエンドのシングルステージ、アンカーフリー、NMSフリーネットワークは、マルチビューイメージとLiDARポイントクラウドを取り込み、3Dバウンディングボックスを予測する。
MSF3DDETRネットワークは、DeTRにインスパイアされたハンガリーのアルゴリズムに基づくバイパーティイトマッチングとセット・ツー・セット・ロスを使用して、nuScenesデータセット上でエンドツーエンドにトレーニングされている。
論文 参考訳(メタデータ) (2022-10-27T10:55:15Z) - RAANet: Range-Aware Attention Network for LiDAR-based 3D Object
Detection with Auxiliary Density Level Estimation [11.180128679075716]
自律運転のためのLiDARデータから3Dオブジェクトを検出するために,Range-Aware Attention Network (RAANet) が開発された。
RAANetはより強力なBEV機能を抽出し、優れた3Dオブジェクト検出を生成する。
nuScenesデータセットの実験により,提案手法がLiDARを用いた3Dオブジェクト検出の最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-11-18T04:20:13Z) - Frustum Fusion: Pseudo-LiDAR and LiDAR Fusion for 3D Detection [0.0]
本稿では,立体対から得られる高精度な点雲と,密度が高いが精度の低い点雲を結合する新しいデータ融合アルゴリズムを提案する。
我々は複数の3次元物体検出法を訓練し、核融合戦略が検出器の性能を継続的に改善することを示す。
論文 参考訳(メタデータ) (2021-11-08T19:29:59Z) - RoIFusion: 3D Object Detection from LiDAR and Vision [7.878027048763662]
本稿では,3次元関心領域(RoI)の集合を点雲から対応する画像の2次元ロIに投影することで,新しい融合アルゴリズムを提案する。
提案手法は,KITTI 3Dオブジェクト検出課題ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-09-09T20:23:27Z) - End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection [62.34374949726333]
擬似LiDAR(PL)は、LiDARセンサに基づく手法と安価なステレオカメラに基づく手法の精度ギャップを劇的に減らした。
PLは最先端のディープニューラルネットワークと2D深度マップ出力を3Dポイントクラウド入力に変換することで3Dオブジェクト検出のための3D深度推定を組み合わせている。
我々は、PLパイプライン全体をエンドツーエンドにトレーニングできるように、差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを導入します。
論文 参考訳(メタデータ) (2020-04-07T02:18:38Z) - 3D Object Detection From LiDAR Data Using Distance Dependent Feature
Extraction [7.04185696830272]
本研究は、LiDAR点雲の性質を遠距離で考慮し、3次元物体検出器の改良を提案する。
その結果、近距離および長距離オブジェクトのための個別ネットワークのトレーニングは、すべてのKITTIベンチマークの困難さに対するパフォーマンスを高めることが示された。
論文 参考訳(メタデータ) (2020-03-02T13:16:35Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。