Fugu-MT 論文翻訳(概要): Lift-Attend-Splat: Bird's-eye-view camera-lidar fusion using transformers

論文の概要: Lift-Attend-Splat: Bird's-eye-view camera-lidar fusion using transformers

arxiv url: http://arxiv.org/abs/2312.14919v2
Date: Tue, 26 Dec 2023 13:00:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-27 12:48:45.820266
Title: Lift-Attend-Splat: Bird's-eye-view camera-lidar fusion using transformers
Title（参考訳）: Lift-Attend-Splat:変圧器を用いたバードアイビューカメラライダー融合
Authors: James Gunn, Zygmunt Lenyk, Anuj Sharma, Andrea Donati, Alexandru Buburuzan, John Redford, and Romain Mueller
Abstract要約: 単分子深度推定を完全に回避する新しい融合法を提案する。本モデルでは,ライダー機能の利用率に基づいて,カメラ機能の利用を調節できることが示されている。
参考スコア（独自算出の注目度）: 39.14931758754381
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Combining complementary sensor modalities is crucial to providing robust perception for safety-critical robotics applications such as autonomous driving (AD). Recent state-of-the-art camera-lidar fusion methods for AD rely on monocular depth estimation which is a notoriously difficult task compared to using depth information from the lidar directly. Here, we find that this approach does not leverage depth as expected and show that naively improving depth estimation does not lead to improvements in object detection performance and that, strikingly, removing depth estimation altogether does not degrade object detection performance. This suggests that relying on monocular depth could be an unnecessary architectural bottleneck during camera-lidar fusion. In this work, we introduce a novel fusion method that bypasses monocular depth estimation altogether and instead selects and fuses camera and lidar features in a bird's-eye-view grid using a simple attention mechanism. We show that our model can modulate its use of camera features based on the availability of lidar features and that it yields better 3D object detection on the nuScenes dataset than baselines relying on monocular depth estimation.
Abstract（参考訳）: 補完的なセンサモダリティの組み合わせは、自律運転(ad)のような安全クリティカルなロボティクスアプリケーションのための堅牢な認識を提供するために不可欠である。近年のAD用カメラとライダーの融合法は,ライダーからの深度情報を直接利用するよりも,単眼深度推定に頼っている。ここでは,本手法が期待通り深度を生かしていないこと,また,過度に深度推定を改良しても物体検出性能は向上せず,また,絶対的に深度推定を除去しても物体検出性能は劣化しないことを示す。これは、単眼深度に依存することは、カメラとライダーの融合において不要なアーキテクチャ上のボトルネックであることを示唆している。そこで本研究では,単眼深度推定を完全にバイパスし,単純な注意機構を用いて鳥眼網のカメラとライダーの機能を選択・融合する新しい融合手法を提案する。提案手法は,lidar機能の利用に基づいてカメラ機能の利用を変調し,単眼深度推定に基づくベースラインよりも,nuscenesデータセット上でより優れた3dオブジェクト検出を実現することを示す。

関連論文リスト

GVDepth: Zero-Shot Monocular Depth Estimation for Ground Vehicles based on Probabilistic Cue Fusion [7.588468985212172]
計量単分子深度推定の一般化は、その不適切な性質のために重要な課題となる。本稿では,様々なカメラ設定の整合性を維持する新しい標準表現を提案する。また,物体の大きさや垂直位置の手がかりによって推定される深度を適応的かつ確率的に融合する新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-12-08T22:04:34Z)
Instance-aware Multi-Camera 3D Object Detection with Structural Priors Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文参考訳（メタデータ） (2023-12-13T09:24:42Z)
DeepFusion: A Robust and Modular 3D Object Detector for Lidars, Cameras and Radars [2.2166853714891057]
本研究では,ライダー,カメラ,レーダーを異なる組み合わせで融合して3次元物体検出を行うモジュール型マルチモーダルアーキテクチャを提案する。特殊特徴抽出器は各モードの利点を生かし、容易に交換でき、アプローチをシンプルかつ柔軟にする。 Lidar-camera, lidar-camera-radar, camera-radar fusion の実験結果から, 融合法の柔軟性と有効性が確認された。
論文参考訳（メタデータ） (2022-09-26T14:33:30Z)
Uncertainty Guided Depth Fusion for Spike Camera [49.41822923588663]
スパイクカメラのための単分子およびステレオ深度推定ネットワークの予測を融合させる新しい不確かさ誘導深度融合(UGDF)フレームワークを提案する。我々のフレームワークは、ステレオスパイク深さ推定がより近い範囲でより良い結果をもたらすという事実に動機づけられている。従来のカメラ深度推定よりもスパイク深度推定の利点を示すため、我々はCitySpike20Kというスパイク深度データセットに貢献する。
論文参考訳（メタデータ） (2022-08-26T13:04:01Z)
Depth Estimation Matters Most: Improving Per-Object Depth Estimation for Monocular 3D Detection and Tracking [47.59619420444781]
検出・追跡を含む単眼的3D知覚へのアプローチは、LiDARベースの手法と比較して性能が劣ることが多い。本稿では,オブジェクト(トラックレット)の複数のフレームに異なる表現(RGBと擬似LiDAR)と時間情報を組み合わせた多層融合手法を提案する。
論文参考訳（メタデータ） (2022-06-08T03:37:59Z)
SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2022-04-07T17:58:47Z)
CamLessMonoDepth: Monocular Depth Estimation with Unknown Camera Parameters [1.7499351967216341]
単眼深度推定の最近の進歩は、深度ニューラルネットワークをトレーニングし、地中真理データを必要としない逆深度とポーズを予測することによって、単一のカメラ入力からそのような知識を得ることが可能であることを示している。本研究では,単眼画像のみから学習することで,ピンホールカメラの内在を奥行きやポーズとともに暗黙的に推定する手法を提案する。
論文参考訳（メタデータ） (2021-10-27T10:54:15Z)
Geometry-aware data augmentation for monocular 3D object detection [18.67567745336633]
本稿では,自動運転システムにおける必須モジュールの一つであるモノキュラー3次元物体検出について述べる。重要な課題は、深さ回復問題は単眼データに不備があることです。我々は,既存の手法が,異なる幾何学的シフトが発生した場合の深さをロバストに推定できないことを明らかにするために,詳細な解析を行う。上記の操作を,対応する4つの3D対応データ拡張手法に変換する。
論文参考訳（メタデータ） (2021-04-12T23:12:48Z)
SynDistNet: Self-Supervised Monocular Fisheye Camera Distance Estimation Synergized with Semantic Segmentation for Autonomous Driving [37.50089104051591]
モノクル深度推定のための最先端の自己教師型学習アプローチは、通常、スケールの曖昧さに悩まされる。本稿では,魚眼カメラ画像とピンホールカメラ画像の自己教師付き単眼距離推定を改善するための,新しいマルチタスク学習手法を提案する。
論文参考訳（メタデータ） (2020-08-10T10:52:47Z)
Video Depth Estimation by Fusing Flow-to-Depth Proposals [65.24533384679657]
本稿では,映像深度推定のためのフロー・ツー・ディープス・レイヤの異なる手法を提案する。モデルは、フロー・トゥ・ディープス層、カメラ・ポーズ・リファインメント・モジュール、ディープ・フュージョン・ネットワークから構成される。提案手法は,最先端の深度推定法より優れ,合理的なデータセット一般化能力を有する。
論文参考訳（メタデータ） (2019-12-30T10:45:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。