論文の概要: LXL: LiDAR Excluded Lean 3D Object Detection with 4D Imaging Radar and
Camera Fusion
- arxiv url: http://arxiv.org/abs/2307.00724v4
- Date: Tue, 3 Oct 2023 10:07:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 08:06:08.961959
- Title: LXL: LiDAR Excluded Lean 3D Object Detection with 4D Imaging Radar and
Camera Fusion
- Title(参考訳): LXL:4次元イメージングレーダとカメラフュージョンを用いたLiDARによるリーン3次元物体検出
- Authors: Weiyi Xiong, Jianan Liu, Tao Huang, Qing-Long Han, Yuxuan Xia, Bing
Zhu
- Abstract要約: 本稿では,カメラ上の「サンプリング」ビュー変換戦略と4次元イメージングレーダ融合による3次元物体検出について検討する。
画像深度とレーダ情報を導入して「サンプリング」戦略を強化することにより、より正確なビュー変換を行うことができることを示す。
VoD と TJ4DRadSet データセットの実験により,提案手法はベルやホイッスルを使わずに,最先端の3Dオブジェクト検出手法よりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 14.520176332262725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an emerging technology and a relatively affordable device, the 4D imaging
radar has already been confirmed effective in performing 3D object detection in
autonomous driving. Nevertheless, the sparsity and noisiness of 4D radar point
clouds hinder further performance improvement, and in-depth studies about its
fusion with other modalities are lacking. On the other hand, as a new image
view transformation strategy, "sampling" has been applied in a few image-based
detectors and shown to outperform the widely applied "depth-based splatting"
proposed in Lift-Splat-Shoot (LSS), even without image depth prediction.
However, the potential of "sampling" is not fully unleashed. This paper
investigates the "sampling" view transformation strategy on the camera and 4D
imaging radar fusion-based 3D object detection. LiDAR Excluded Lean (LXL)
model, predicted image depth distribution maps and radar 3D occupancy grids are
generated from image perspective view (PV) features and radar bird's eye view
(BEV) features, respectively. They are sent to the core of LXL, called "radar
occupancy-assisted depth-based sampling", to aid image view transformation. We
demonstrated that more accurate view transformation can be performed by
introducing image depths and radar information to enhance the "sampling"
strategy. Experiments on VoD and TJ4DRadSet datasets show that the proposed
method outperforms the state-of-the-art 3D object detection methods by a
significant margin without bells and whistles. Ablation studies demonstrate
that our method performs the best among different enhancement settings.
- Abstract(参考訳): 新興技術であり比較的手頃な価格の装置であるこの4Dイメージングレーダーは、自動運転における3Dオブジェクト検出にすでに有効であることが確認されている。
しかし、4Dレーダーポイント雲の空間とノイズはさらなる性能向上を妨げ、他のモードとの融合に関する詳細な研究は欠如している。
一方で,新たなイメージビュー変換戦略として,いくつかのイメージベース検出器に"サンプリング"が適用され,画像深度予測がなくても,リフト・スプレート・シューティング(lss)で提案されている広く適用されている"深度ベーススプレーティング"を上回っていることが示されている。
しかし、「サンプリング」の可能性は完全には開かれていない。
本稿では,カメラ上の「サンプリング」ビュー変換戦略と4次元イメージングレーダ融合による3次元物体検出について検討する。
LiDAR Excluded Lean(LXL)モデル、予測画像深度分布マップ、レーダー3D占有格子は、それぞれ画像視点(PV)特徴とレーダー鳥の視線(BEV)特徴から生成される。
これらは、画像ビュー変換を支援するため、"radar occupancy-assisted depth-based sampling"と呼ばれるlxlのコアに送られる。
我々は,画像深度とレーダ情報を導入して,より正確な視点変換を行うことで,「サンプリング」戦略を強化することを実証した。
VoD と TJ4DRadSet データセットの実験により,提案手法はベルやホイッスルを使わずに,最先端の3Dオブジェクト検出手法よりも優れた性能を示した。
アブレーション研究により,本手法は異なる強調設定において最良であることが証明された。
関連論文リスト
- UniBEVFusion: Unified Radar-Vision BEVFusion for 3D Object Detection [2.123197540438989]
多くのレーダービジョン融合モデルではレーダーを希薄なLiDARとして扱い、レーダー固有の情報を過小評価している。
本稿では,レーダー固有データを深度予測プロセスに統合したRDLモジュールを提案する。
また、異なるモードでBEV機能を抽出するUnified Feature Fusion (UFF)アプローチも導入する。
論文 参考訳(メタデータ) (2024-09-23T06:57:27Z) - RadarOcc: Robust 3D Occupancy Prediction with 4D Imaging Radar [15.776076554141687]
3D占有に基づく知覚パイプラインは、かなり進歩した自律運転を持つ。
現在の方法では、LiDARやカメラの入力を3D占有率予測に頼っている。
本稿では,4次元イメージングレーダセンサを用いた3次元占有予測手法を提案する。
論文 参考訳(メタデータ) (2024-05-22T21:48:17Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - 4DRVO-Net: Deep 4D Radar-Visual Odometry Using Multi-Modal and
Multi-Scale Adaptive Fusion [2.911052912709637]
4次元(4D)レーダー-視覚計測(4DRVO)は4次元レーダーとカメラの補完情報を統合している。
4DRVOは4Dレーダーポイント雲の空隙による追跡誤差が顕著である可能性がある。
本稿では,4次元レーダ・ビジュアル・オドメトリーの手法である4DRVO-Netを提案する。
論文 参考訳(メタデータ) (2023-08-12T14:00:09Z) - SMURF: Spatial Multi-Representation Fusion for 3D Object Detection with
4D Imaging Radar [12.842457981088378]
本稿では,単一4次元イメージングレーダを用いた新しい3次元物体検出手法である空間多重表現融合(SMURF)を提案する。
SMURFは、狭角分解能とレーダ信号のマルチパス伝搬による測定精度の低下を緩和する。
The experimental evaluations on View-of-Delft (VoD) and TJ4DRadSet datasets showed the effective and generalization ability of SMURF。
論文 参考訳(メタデータ) (2023-07-20T11:33:46Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - Bridging the View Disparity of Radar and Camera Features for Multi-modal
Fusion 3D Object Detection [6.959556180268547]
本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。
より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T13:21:37Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Shape Prior Non-Uniform Sampling Guided Real-time Stereo 3D Object
Detection [59.765645791588454]
最近導入されたRTS3Dは、深度監督のないオブジェクトの中間表現のための効率的な4次元特徴整合埋め込み空間を構築している。
本研究では, 内部領域で高密度サンプリングを行い, 内部領域でスパースサンプリングを行う非一様サンプリング方式を提案する。
提案手法は,ネットワークパラメータをほとんど含まないAP3dに対して2.57%の改善を実現している。
論文 参考訳(メタデータ) (2021-06-18T09:14:55Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。