Fugu-MT 論文翻訳(概要): A Simple Baseline for BEV Perception Without LiDAR

論文の概要: A Simple Baseline for BEV Perception Without LiDAR

arxiv url: http://arxiv.org/abs/2206.07959v1
Date: Thu, 16 Jun 2022 06:57:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-17 16:01:05.266887
Title: A Simple Baseline for BEV Perception Without LiDAR
Title（参考訳）: LiDARのないBEV知覚のための簡易ベースライン
Authors: Adam W. Harley and Zhaoyuan Fang and Jie Li and Rares Ambrus and Katerina Fragkiadaki
Abstract要約: LiDARに依存しない自動運転車のための3D認識システムの構築は、重要な研究課題である。現在の方法では、車両の周囲のカメラから収集された多視点RGBデータを使用する。本稿では,単純なベースラインモデルを提案する。このモデルでは,投影されたすべての画像位置から,単に「リフト」ステップで特徴を推定する。
参考スコア（独自算出の注目度）: 37.00868568802673
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Building 3D perception systems for autonomous vehicles that do not rely on LiDAR is a critical research problem because of the high expense of LiDAR systems compared to cameras and other sensors. Current methods use multi-view RGB data collected from cameras around the vehicle and neurally "lift" features from the perspective images to the 2D ground plane, yielding a "bird's eye view" (BEV) feature representation of the 3D space around the vehicle. Recent research focuses on the way the features are lifted from images to the BEV plane. We instead propose a simple baseline model, where the "lifting" step simply averages features from all projected image locations, and find that it outperforms the current state-of-the-art in BEV vehicle segmentation. Our ablations show that batch size, data augmentation, and input resolution play a large part in performance. Additionally, we reconsider the utility of radar input, which has previously been either ignored or found non-helpful by recent works. With a simple RGB-radar fusion module, we obtain a sizable boost in performance, approaching the accuracy of a LiDAR-enabled system.
Abstract（参考訳）: LiDARシステムに頼らない自動運転車の3D認識システムの構築は、カメラや他のセンサーと比較してLiDARシステムのコストが高いため、重要な研究課題である。現在の方法では、車両の周囲のカメラから収集された多視点RGBデータと、視線画像から2D地上面へのニューラルな「リフト」特徴を使い、車両周辺の3D空間の「鳥の目視」(BEV)特徴表現が得られる。最近の研究は、画像からBEV平面へ機能を持ち上げる方法に焦点を当てている。その代わりに、単純なベースラインモデルを提案し、"リフト"ステップは単純に全ての投影された画像位置から特徴を平均し、BEV車両セグメンテーションにおける現在の最先端技術よりも優れていることを確かめる。私たちの短縮は、バッチサイズ、データ拡張、入力解像度がパフォーマンスに大きな役割を果たしていることを示している。また,これまで無視されたか,あるいは近年の研究で役に立たなかったレーダー入力の有用性を再考する。単純なRGB-レーダー融合モジュールを用いて,LiDAR対応システムの精度にアプローチして,大幅な性能向上を実現する。

関連論文リスト

RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。 RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文参考訳（メタデータ） (2024-12-17T09:47:48Z)
SimpleBEV: Improved LiDAR-Camera Fusion Architecture for 3D Object Detection [15.551625571158056]
高精度な3次元物体検出のためのLiDARカメラ融合フレームワークSimpleBEVを提案する。提案手法は, nuScenesデータセット上で77.6%のNDS精度を実現し, 3次元物体検出トラックにおける優れた性能を示す。
論文参考訳（メタデータ） (2024-11-08T02:51:39Z)
RCBEVDet++: Toward High-accuracy Radar-Camera Fusion 3D Perception Network [34.45694077040797]
本稿では、BEEVDetと呼ばれるレーダーカメラ融合3Dオブジェクト検出フレームワークを提案する。 RadarBEVNetは、スパースレーダーポイントを高密度の鳥の目視特徴に符号化する。提案手法は,3次元オブジェクト検出,BEVセマンティックセグメンテーション,および3次元マルチオブジェクト追跡タスクにおいて,最先端のレーダカメラ融合を実現する。
論文参考訳（メタデータ） (2024-09-08T05:14:27Z)
Better Monocular 3D Detectors with LiDAR from the Past [64.6759926054061]
カメラベースの3D検出器は、画像の奥行きのあいまいさのため、LiDARベースの検出器に比べて性能が劣ることが多い。本研究では,未ラベルの歴史的LiDARデータを活用することにより,単分子3D検出器の改良を図る。複数の最先端モデルやデータセットに対して,9.66ミリ秒の追加レイテンシとストレージコストの低い,一貫性と大幅なパフォーマンス向上を示す。
論文参考訳（メタデータ） (2024-04-08T01:38:43Z)
BEVCar: Camera-Radar Fusion for BEV Map and Object Segmentation [22.870994478494566]
共同BEVオブジェクトとマップセグメンテーションのための新しいアプローチであるBEVCarを紹介する。我々のアプローチの中核的な特徴は、まず生のレーダーデータのポイントベース符号化を学習することにある。レーダ情報の導入は, 環境問題におけるロバスト性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-03-18T13:14:46Z)
RC-BEVFusion: A Plug-In Module for Radar-Camera Bird's Eye View Feature Fusion [11.646949644683755]
本稿では,BEV平面上のモジュラーレーダカメラ融合ネットワークであるRC-BEVFusionを紹介する。 nuScenes検出スコアは最大28%向上した。
論文参考訳（メタデータ） (2023-05-25T09:26:04Z)
BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文参考訳（メタデータ） (2022-12-12T08:15:03Z)
Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images [96.66271207089096]
FCOS-LiDARは、自律走行シーンのLiDAR点雲のための完全な1段式3Dオブジェクト検出器である。標準的な2Dコンボリューションを持つRVベースの3D検出器は、最先端のBEVベースの検出器と同等の性能を発揮することを示す。
論文参考訳（メタデータ） (2022-05-27T05:42:16Z)
Multi-modal 3D Human Pose Estimation with 2D Weak Supervision in Autonomous Driving [74.74519047735916]
自動運転車(AV)における3次元ポーズ推定(HPE)は,多くの要因において他のユースケースと異なる。他のユースケース(仮想現実、ゲーム、アニメーションなど)のために収集されたデータは、AVアプリケーションには使用できない可能性がある。本稿では,この問題をAV設定で緩和するための最初のアプローチの1つを提案する。
論文参考訳（メタデータ） (2021-12-22T18:57:16Z)
Recovering and Simulating Pedestrians in the Wild [81.38135735146015]
本研究では,自動車の走行によって野生で捕獲されたセンサから歩行者の形状と動きを復元することを提案する。再建された歩行者資産銀行をリアルな3Dシミュレーションシステムに組み込む。シミュレーションしたLiDARデータを用いて,視覚知覚タスクに必要な実世界のデータ量を大幅に削減できることを示す。
論文参考訳（メタデータ） (2020-11-16T17:16:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。