論文の概要: MonoGAE: Roadside Monocular 3D Object Detection with Ground-Aware
Embeddings
- arxiv url: http://arxiv.org/abs/2310.00400v1
- Date: Sat, 30 Sep 2023 14:52:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 04:41:14.970972
- Title: MonoGAE: Roadside Monocular 3D Object Detection with Ground-Aware
Embeddings
- Title(参考訳): monogae: グラウンドアウェア埋め込みによる道路サイドのモノクロ3dオブジェクト検出
- Authors: Lei Yang, Jiaxin Yu, Xinyu Zhang, Jun Li, Li Wang, Yi Huang, Chuang
Zhang, Hong Wang, Yiming Li
- Abstract要約: そこで我々は,モノGAEという,地表面認識による道路面モノクロ3次元物体検出のための新しいフレームワークを提案する。
提案手法は,道路側カメラの広範に認識されている3次元検出ベンチマークにおいて,従来のモノクル3次元物体検出器と比較して,かなりの性能上の優位性を示す。
- 参考スコア(独自算出の注目度): 29.050983641961658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although the majority of recent autonomous driving systems concentrate on
developing perception methods based on ego-vehicle sensors, there is an
overlooked alternative approach that involves leveraging intelligent roadside
cameras to help extend the ego-vehicle perception ability beyond the visual
range. We discover that most existing monocular 3D object detectors rely on the
ego-vehicle prior assumption that the optical axis of the camera is parallel to
the ground. However, the roadside camera is installed on a pole with a pitched
angle, which makes the existing methods not optimal for roadside scenes. In
this paper, we introduce a novel framework for Roadside Monocular 3D object
detection with ground-aware embeddings, named MonoGAE. Specifically, the ground
plane is a stable and strong prior knowledge due to the fixed installation of
cameras in roadside scenarios. In order to reduce the domain gap between the
ground geometry information and high-dimensional image features, we employ a
supervised training paradigm with a ground plane to predict high-dimensional
ground-aware embeddings. These embeddings are subsequently integrated with
image features through cross-attention mechanisms. Furthermore, to improve the
detector's robustness to the divergences in cameras' installation poses, we
replace the ground plane depth map with a novel pixel-level refined ground
plane equation map. Our approach demonstrates a substantial performance
advantage over all previous monocular 3D object detectors on widely recognized
3D detection benchmarks for roadside cameras. The code and pre-trained models
will be released soon.
- Abstract(参考訳): 最近の自動運転システムの大部分は、自走車センサーに基づく知覚方法の開発に集中しているが、視覚範囲を超えて自走車認識能力を拡張するために、インテリジェントな路面カメラを活用するという、見過ごされがちなアプローチがある。
既存のモノキュラー3d物体検出器のほとんどは、カメラの光軸が地面と平行であるという事前の仮定に依存していることが判明した。
しかし、道端カメラはピッチ角のついたポールに設置されており、既存の方法は道端のシーンに最適ではない。
本稿では,モノガエ(MonoGAE)という,地表面認識による道路面モノクロ3次元物体検出のための新しいフレームワークを提案する。
特に、地上の飛行機は、道路脇のシナリオにカメラが固定されているため、以前の知識が安定しており、強い。
地盤形状情報と高次元画像特徴との領域ギャップを低減するために,地上平面を用いた教師付き訓練パラダイムを用いて,高次元地盤認識埋め込みの予測を行う。
これらの埋め込みはその後、クロスアテンション機構を通じて画像特徴と統合される。
さらに, カメラの設置姿勢のばらつきに対する検出器の堅牢性を向上させるため, 地平面深度マップを新しいピクセルレベルの精細な地平面方程式マップに置き換える。
提案手法は,道路カメラ用3d検出ベンチマークにおいて,従来のモノキュラー3d物体検出装置よりも優れた性能を示す。
コードと事前訓練されたモデルはまもなくリリースされる。
関連論文リスト
- MOSE: Boosting Vision-based Roadside 3D Object Detection with Scene Cues [12.508548561872553]
Scene cuEsを用いたMonocular 3Dオブジェクト検出のための新しいフレームワークMOSEを提案する。
シーンキューバンクは、同じシーンの複数のフレームからシーンキューを集約するように設計されている。
トランスベースのデコーダは、集約されたシーンキューと3Dオブジェクト位置のための3D位置埋め込みをリフトする。
論文 参考訳(メタデータ) (2024-04-08T08:11:56Z) - LATR: 3D Lane Detection from Monocular Images with Transformer [42.34193673590758]
単眼画像からの3次元車線検出は、自動運転の基本的な課題である。
最近の進歩は、前面画像の特徴とカメラパラメータから構築された構造的な3Dサロゲートに依存している。
本稿では, 3D-aware front-view機能を用いた3次元車線検出システムであるLATRモデルを提案する。
論文 参考訳(メタデータ) (2023-08-08T21:08:42Z) - CAPE: Camera View Position Embedding for Multi-View 3D Object Detection [100.02565745233247]
現在のクエリベースの手法は、画像と3次元空間の幾何学的対応を学習するために、グローバルな3D位置埋め込みに依存している。
本稿では,CAPE と呼ばれる,CAmera view position Embedding に基づく新しい手法を提案する。
CAPEはnuScenesデータセット上の全てのLiDARフリーメソッドの中で最先端のパフォーマンス(61.0% NDSと52.5% mAP)を達成する。
論文 参考訳(メタデータ) (2023-03-17T18:59:54Z) - BEVHeight: A Robust Framework for Vision-based Roadside 3D Object
Detection [27.921256216924384]
視覚中心の鳥の視線検出法は、路面カメラでは性能が劣る。
この問題に対処するために,BEVHeightと呼ばれるシンプルで効果的なアプローチを提案する。
我々の手法は従来の視覚中心の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-03-15T10:18:53Z) - Satellite Image Based Cross-view Localization for Autonomous Vehicle [59.72040418584396]
本稿では,市販の高精細衛星画像を使用可能な地図として利用することにより,良好な精度でクロスビュー車両のローカライゼーションを実現することができることを示す。
本手法はKITTIとFord Multi-AVの季節データセットを地上ビューとして,Google Mapsを衛星ビューとして検証した。
論文 参考訳(メタデータ) (2022-07-27T13:16:39Z) - PolarFormer: Multi-camera 3D Object Detection with Polar Transformers [93.49713023975727]
自律運転における3次元物体検出は、3次元の世界に存在する「何」と「どこに」の物体を推論することを目的としている。
既存の手法はしばしば垂直軸を持つ標準カルテ座標系を採用する。
鳥眼ビュー(BEV)におけるより正確な3次元物体検出のための新しい極変換器(PolarFormer)を,マルチカメラ2D画像のみを入力として提案する。
論文 参考訳(メタデータ) (2022-06-30T16:32:48Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Rope3D: TheRoadside Perception Dataset for Autonomous Driving and
Monocular 3D Object Detection Task [48.555440807415664]
道路沿いの知覚3Dデータセットに挑戦する最初のハイダイバーシティを提示する。
データセットは50Kイメージと、さまざまなシーンで1.5M以上の3Dオブジェクトで構成されている。
本稿では,様々なセンサや視点によって引き起こされるあいまいさを解決するために,幾何学的制約を活用することを提案する。
論文 参考訳(メタデータ) (2022-03-25T12:13:23Z) - Monocular 3D Vehicle Detection Using Uncalibrated Traffic Cameras
through Homography [12.062095895630563]
本稿では,1台の交通カメラから3次元世界における車両の位置とポーズを抽出する手法を提案する。
道路平面と画像平面の相同性が3D車両の検出に不可欠であることを観察する。
本稿では,BEV画像の歪み検出精度を高めるためのtextittailedr-box と textitdual-view Network アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-29T02:57:37Z) - Road Curb Detection and Localization with Monocular Forward-view Vehicle
Camera [74.45649274085447]
魚眼レンズを装着した校正単眼カメラを用いて3Dパラメータを推定するロバストな手法を提案する。
我々のアプローチでは、車両が90%以上の精度で、リアルタイムで距離を抑えることができる。
論文 参考訳(メタデータ) (2020-02-28T00:24:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。