論文の概要: Lift-Attend-Splat: Bird's-eye-view camera-lidar fusion using transformers
- arxiv url: http://arxiv.org/abs/2312.14919v3
- Date: Tue, 21 May 2024 16:47:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 18:51:19.404579
- Title: Lift-Attend-Splat: Bird's-eye-view camera-lidar fusion using transformers
- Title(参考訳): Lift-Attend-Splat:変圧器を用いたバードアイビューカメラライダー融合
- Authors: James Gunn, Zygmunt Lenyk, Anuj Sharma, Andrea Donati, Alexandru Buburuzan, John Redford, Romain Mueller,
- Abstract要約: 単分子深度推定を完全に回避する新しい融合法を提案する。
本モデルでは,ライダー機能の利用率に基づいて,カメラ機能の利用を調節できることが示されている。
- 参考スコア(独自算出の注目度): 39.14931758754381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Combining complementary sensor modalities is crucial to providing robust perception for safety-critical robotics applications such as autonomous driving (AD). Recent state-of-the-art camera-lidar fusion methods for AD rely on monocular depth estimation which is a notoriously difficult task compared to using depth information from the lidar directly. Here, we find that this approach does not leverage depth as expected and show that naively improving depth estimation does not lead to improvements in object detection performance. Strikingly, we also find that removing depth estimation altogether does not degrade object detection performance substantially, suggesting that relying on monocular depth could be an unnecessary architectural bottleneck during camera-lidar fusion. In this work, we introduce a novel fusion method that bypasses monocular depth estimation altogether and instead selects and fuses camera and lidar features in a bird's-eye-view grid using a simple attention mechanism. We show that our model can modulate its use of camera features based on the availability of lidar features and that it yields better 3D object detection on the nuScenes dataset than baselines relying on monocular depth estimation.
- Abstract(参考訳): 相補的なセンサーのモダリティを組み合わせることは、自律運転(AD)のような安全クリティカルなロボティクスアプリケーションに対して、堅牢な認識を提供する上で重要である。
近年のAD用カメラ・ライダー融合法は,ライダーからの深度情報を直接使用した場合と比較して,非常に難しい単眼深度推定に頼っている。
ここでは,本手法が期待通り深度を生かしていないこと,また,過度に深度推定を改良しても物体検出性能が向上しないことを示す。
また, 被写体検出性能が著しく低下することはなく, 単分子深度に依存することは, カメラとライダーの融合において不要なアーキテクチャ上のボトルネックとなる可能性が示唆された。
本研究では,単一眼深度推定を完全に回避し,簡単な注意機構を用いて鳥眼ビューグリッドにおけるカメラ特徴とライダー特徴を抽出・融合する新しい融合手法を提案する。
本モデルでは,ライダー機能の利用率に基づいてカメラ機能の利用を変調し,単眼深度推定に基づくベースラインよりも,nuScenesデータセット上での3次元物体検出が優れていることを示す。
関連論文リスト
- Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - DeepFusion: A Robust and Modular 3D Object Detector for Lidars, Cameras
and Radars [2.2166853714891057]
本研究では,ライダー,カメラ,レーダーを異なる組み合わせで融合して3次元物体検出を行うモジュール型マルチモーダルアーキテクチャを提案する。
特殊特徴抽出器は各モードの利点を生かし、容易に交換でき、アプローチをシンプルかつ柔軟にする。
Lidar-camera, lidar-camera-radar, camera-radar fusion の実験結果から, 融合法の柔軟性と有効性が確認された。
論文 参考訳(メタデータ) (2022-09-26T14:33:30Z) - Uncertainty Guided Depth Fusion for Spike Camera [49.41822923588663]
スパイクカメラのための単分子およびステレオ深度推定ネットワークの予測を融合させる新しい不確かさ誘導深度融合(UGDF)フレームワークを提案する。
我々のフレームワークは、ステレオスパイク深さ推定がより近い範囲でより良い結果をもたらすという事実に動機づけられている。
従来のカメラ深度推定よりもスパイク深度推定の利点を示すため、我々はCitySpike20Kというスパイク深度データセットに貢献する。
論文 参考訳(メタデータ) (2022-08-26T13:04:01Z) - Depth Estimation Matters Most: Improving Per-Object Depth Estimation for
Monocular 3D Detection and Tracking [47.59619420444781]
検出・追跡を含む単眼的3D知覚へのアプローチは、LiDARベースの手法と比較して性能が劣ることが多い。
本稿では,オブジェクト(トラックレット)の複数のフレームに異なる表現(RGBと擬似LiDAR)と時間情報を組み合わせた多層融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T03:37:59Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - CamLessMonoDepth: Monocular Depth Estimation with Unknown Camera
Parameters [1.7499351967216341]
単眼深度推定の最近の進歩は、深度ニューラルネットワークをトレーニングし、地中真理データを必要としない逆深度とポーズを予測することによって、単一のカメラ入力からそのような知識を得ることが可能であることを示している。
本研究では,単眼画像のみから学習することで,ピンホールカメラの内在を奥行きやポーズとともに暗黙的に推定する手法を提案する。
論文 参考訳(メタデータ) (2021-10-27T10:54:15Z) - Geometry-aware data augmentation for monocular 3D object detection [18.67567745336633]
本稿では,自動運転システムにおける必須モジュールの一つであるモノキュラー3次元物体検出について述べる。
重要な課題は、深さ回復問題は単眼データに不備があることです。
我々は,既存の手法が,異なる幾何学的シフトが発生した場合の深さをロバストに推定できないことを明らかにするために,詳細な解析を行う。
上記の操作を,対応する4つの3D対応データ拡張手法に変換する。
論文 参考訳(メタデータ) (2021-04-12T23:12:48Z) - SynDistNet: Self-Supervised Monocular Fisheye Camera Distance Estimation
Synergized with Semantic Segmentation for Autonomous Driving [37.50089104051591]
モノクル深度推定のための最先端の自己教師型学習アプローチは、通常、スケールの曖昧さに悩まされる。
本稿では,魚眼カメラ画像とピンホールカメラ画像の自己教師付き単眼距離推定を改善するための,新しいマルチタスク学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-10T10:52:47Z) - Video Depth Estimation by Fusing Flow-to-Depth Proposals [65.24533384679657]
本稿では,映像深度推定のためのフロー・ツー・ディープス・レイヤの異なる手法を提案する。
モデルは、フロー・トゥ・ディープス層、カメラ・ポーズ・リファインメント・モジュール、ディープ・フュージョン・ネットワークから構成される。
提案手法は,最先端の深度推定法より優れ,合理的なデータセット一般化能力を有する。
論文 参考訳(メタデータ) (2019-12-30T10:45:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。