論文の概要: Multi-modal Streaming 3D Object Detection
- arxiv url: http://arxiv.org/abs/2209.04966v1
- Date: Mon, 12 Sep 2022 00:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 13:57:38.011140
- Title: Multi-modal Streaming 3D Object Detection
- Title(参考訳): マルチモーダルストリーミング3Dオブジェクト検出
- Authors: Mazen Abdelfattah, Kaiwen Yuan, Z. Jane Wang, and Rabab Ward
- Abstract要約: 本稿では,革新的なカメラ-LiDARストリーミング3Dオブジェクト検出フレームワークを提案する。
過去のLiDARスライスの代わりにカメライメージを使用して、ストリーミング知覚のための最新で高密度で広いコンテキストを提供する。
提案手法は, カメラ画像の欠落, 狭いLiDARスライス, 小型カメラとLiDARの誤校正に対する堅牢性を示す。
- 参考スコア(独自算出の注目度): 20.01800869678355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern autonomous vehicles rely heavily on mechanical LiDARs for perception.
Current perception methods generally require 360{\deg} point clouds, collected
sequentially as the LiDAR scans the azimuth and acquires consecutive
wedge-shaped slices. The acquisition latency of a full scan (~ 100ms) may lead
to outdated perception which is detrimental to safe operation. Recent streaming
perception works proposed directly processing LiDAR slices and compensating for
the narrow field of view (FOV) of a slice by reusing features from preceding
slices. These works, however, are all based on a single modality and require
past information which may be outdated. Meanwhile, images from high-frequency
cameras can support streaming models as they provide a larger FoV compared to a
LiDAR slice. However, this difference in FoV complicates sensor fusion. To
address this research gap, we propose an innovative camera-LiDAR streaming 3D
object detection framework that uses camera images instead of past LiDAR slices
to provide an up-to-date, dense, and wide context for streaming perception. The
proposed method outperforms prior streaming models on the challenging NuScenes
benchmark. It also outperforms powerful full-scan detectors while being much
faster. Our method is shown to be robust to missing camera images, narrow LiDAR
slices, and small camera-LiDAR miscalibration.
- Abstract(参考訳): 現代の自動運転車は知覚のために機械式LiDARに大きく依存している。
現在の知覚法は一般に360{\deg}点雲を必要とし、LiDARが方位をスキャンして連続的なくさび形スライスを取得するために順次収集される。
フルスキャン(約100ms)の取得遅延は、安全操作に有害な時代遅れの知覚につながる可能性がある。
近年,LiDARスライスを直接処理し,先行するスライスの特徴を再利用して,スライスの狭い視野(FOV)を補償するストリーミング認識技術が提案されている。
しかし、これらの作品は全て単一のモダリティに基づいており、古い情報を必要とする。
一方、高周波カメラの画像は、LiDARスライスに比べて大きなFoVを提供するため、ストリーミングモデルをサポートすることができる。
しかし、このFoVの違いはセンサー融合を複雑にする。
そこで本研究では,従来のLiDARスライスの代わりにカメラ画像を用いて,最新の高密度・広視野のストリーミング知覚を実現する,革新的なカメラ-LiDARストリーミング3Dオブジェクト検出フレームワークを提案する。
提案手法は,難解なnuscenesベンチマークで先行するストリーミングモデルを上回る。
また、強力なフルスキャン検出器よりも高速である。
提案手法は, カメラ画像の欠落, 狭いLiDARスライス, 小型カメラとLiDARの誤校正に対する堅牢性を示す。
関連論文リスト
- Better Monocular 3D Detectors with LiDAR from the Past [64.6759926054061]
カメラベースの3D検出器は、画像の奥行きのあいまいさのため、LiDARベースの検出器に比べて性能が劣ることが多い。
本研究では,未ラベルの歴史的LiDARデータを活用することにより,単分子3D検出器の改良を図る。
複数の最先端モデルやデータセットに対して,9.66ミリ秒の追加レイテンシとストレージコストの低い,一貫性と大幅なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-04-08T01:38:43Z) - Robust 3D Object Detection from LiDAR-Radar Point Clouds via Cross-Modal
Feature Augmentation [7.364627166256136]
本稿では,点雲からの3次元物体検出のための新しい枠組みを提案する。
背骨の微細化と幻覚発生を同時に行うために,空間的および特徴的に複数のアライメントを導入する。
View-of-Delftデータセットの実験により,提案手法は,レーダとLiDARの両方のオブジェクト検出において,最先端(SOTA)手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-09-29T15:46:59Z) - CRN: Camera Radar Net for Accurate, Robust, Efficient 3D Perception [20.824179713013734]
カメラレーダ融合フレームワークであるカメラレーダネット(CRN)を提案する。
CRNは、様々なタスクに対して意味的にリッチで空間的に正確な鳥眼視(BEV)特徴マップを生成する。
リアルタイム設定のCRNは20FPSで動作し、nuScenes上のLiDAR検出器に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2023-04-03T00:47:37Z) - BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework [20.842800465250775]
現在の手法では、LiDARセンサーの点雲をクエリとして利用し、画像空間の機能を活用している。
我々は、カメラストリームがLiDARデータの入力に依存しないBEVFusionと呼ばれる驚くほど単純で斬新な融合フレームワークを提案する。
通常のトレーニング環境下では,我々のフレームワークが最先端の手法を超越していることを実証的に示す。
論文 参考訳(メタデータ) (2022-05-27T06:58:30Z) - Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images [96.66271207089096]
FCOS-LiDARは、自律走行シーンのLiDAR点雲のための完全な1段式3Dオブジェクト検出器である。
標準的な2Dコンボリューションを持つRVベースの3D検出器は、最先端のBEVベースの検出器と同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-05-27T05:42:16Z) - A Lightweight and Detector-free 3D Single Object Tracker on Point Clouds [50.54083964183614]
生のLiDARスキャンにおける物体の点雲は、通常スパースで不完全であるため、正確な目標固有検出を行うのは簡単ではない。
DMTは、複雑な3D検出器の使用を完全に除去する3Dトラッキングネットワークである。
論文 参考訳(メタデータ) (2022-03-08T17:49:07Z) - Embracing Single Stride 3D Object Detector with Sparse Transformer [63.179720817019096]
自律走行のためのLiDARを用いた3次元物体検出では、物体サイズと入力シーンサイズとの比が2次元検出の場合に比べて有意に小さい。
多くの3D検出器は2D検出器の一般的な慣習に従っており、点雲の定量化後も特徴マップを分解する。
本稿では,SST(Single-stride Sparse Transformer)を提案する。
論文 参考訳(メタデータ) (2021-12-13T02:12:02Z) - StrObe: Streaming Object Detection from LiDAR Packets [73.27333924964306]
ローリングシャッターのLiDARはパケットのストリームとして出力され、それぞれ360degのカバレッジのセクターをカバーする。
現代の認識アルゴリズムは、データを処理する前に全スイープが構築されるのを待つ。
本稿では,LiDARパケットを取り込み,全スイープが構築されるのを待たずに検出ストリームを出力することで,レイテンシを最小化する新しいアプローチであるStrObeを提案する。
論文 参考訳(メタデータ) (2020-11-12T14:57:44Z) - Streaming Object Detection for 3-D Point Clouds [29.465873948076766]
LiDARは、多くの既存の知覚システムに通知する顕著な感覚モダリティを提供する。
ポイントクラウドデータに基づく知覚システムのレイテンシは、完全なローテーションスキャンの時間量によって支配される。
我々は、LiDARデータをそのネイティブストリーミング定式化で操作することで、自動運転オブジェクト検出にいくつかの利点があることを示す。
論文 参考訳(メタデータ) (2020-05-04T21:55:15Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。