論文の概要: Towards Scenario Generalization for Vision-based Roadside 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2401.16110v1
- Date: Mon, 29 Jan 2024 12:31:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 14:50:06.614473
- Title: Towards Scenario Generalization for Vision-based Roadside 3D Object
Detection
- Title(参考訳): 視覚に基づく3次元物体検出のシナリオ一般化に向けて
- Authors: Lei Yang, Xinyu Zhang, Jun Li, Li Wang, Chuang Zhang, Li Ju, Zhiwei
Li, Yang Shen
- Abstract要約: 現在の視覚に基づく道路側検出法は,ラベル付きシーンでは精度が高いが,新しいシーンでは性能が劣る。
これは、ロードサイドカメラが設置後も静止しているためであり、その結果、これらのロードサイドの背景とカメラのポーズにアルゴリズムが適合しているためである。
我々は,SGV3Dと呼ばれる,視覚に基づく道路側3次元物体検出のための革新的なシナリオ一般化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.197000297080564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Roadside perception can greatly increase the safety of autonomous vehicles by
extending their perception ability beyond the visual range and addressing blind
spots. However, current state-of-the-art vision-based roadside detection
methods possess high accuracy on labeled scenes but have inferior performance
on new scenes. This is because roadside cameras remain stationary after
installation and can only collect data from a single scene, resulting in the
algorithm overfitting these roadside backgrounds and camera poses. To address
this issue, in this paper, we propose an innovative Scenario Generalization
Framework for Vision-based Roadside 3D Object Detection, dubbed SGV3D.
Specifically, we employ a Background-suppressed Module (BSM) to mitigate
background overfitting in vision-centric pipelines by attenuating background
features during the 2D to bird's-eye-view projection. Furthermore, by
introducing the Semi-supervised Data Generation Pipeline (SSDG) using unlabeled
images from new scenes, diverse instance foregrounds with varying camera poses
are generated, addressing the risk of overfitting specific camera poses. We
evaluate our method on two large-scale roadside benchmarks. Our method
surpasses all previous methods by a significant margin in new scenes, including
+42.57% for vehicle, +5.87% for pedestrian, and +14.89% for cyclist compared to
BEVHeight on the DAIR-V2X-I heterologous benchmark. On the larger-scale Rope3D
heterologous benchmark, we achieve notable gains of 14.48% for car and 12.41%
for large vehicle. We aspire to contribute insights on the exploration of
roadside perception techniques, emphasizing their capability for scenario
generalization. The code will be available at {\url{
https://github.com/yanglei18/SGV3D}}
- Abstract(参考訳): 道路沿いの認識は、視覚範囲を超えて認識能力を拡張し、盲点に対処することで、自動運転車の安全性を大幅に向上させることができる。
しかし,現在最先端の視覚に基づく道路サイド検出手法はラベル付きシーンでは精度が高いが,新しいシーンでは性能に劣る。
これは、ロードサイドカメラは設置後も静止状態のままであり、1つのシーンからのみデータを収集できるため、アルゴリズムがこれらの道路サイドの背景とカメラのポーズを満たしているためである。
本稿では,SGV3Dと呼ばれる,視覚に基づく道路側3次元物体検出のための新しいシナリオ一般化フレームワークを提案する。
具体的には,2dからバードズ・アイ・ビュー・プロジェクションまでの背景特徴を減衰させることで,視覚中心パイプラインの背景過多を軽減するために,背景抑制モジュール(bsm)を用いる。
さらに、新しいシーンからのラベルのない画像を用いて半教師データ生成パイプライン(ssdg)を導入することにより、特定のカメラポーズを過度に満たすリスクに対処して、さまざまなカメラポーズのインスタンス前景を生成する。
提案手法を2つの大規模道路側ベンチマークで評価した。
提案手法は,車両の42.57%,歩行者の5.87%,自転車の14.89%,ダイルv2x-i異種ベンチマークのbevheightの4.89%という,従来の手法をはるかに上回っている。
大型の rope3d 異種ベンチマークでは,車では 14.48%,大型車では 12.41% の大幅な向上を達成した。
我々は,シナリオ一般化の能力を強調し,道路側知覚技術の探究に貢献することを目的としている。
コードは {\url{ https://github.com/yanglei18/SGV3D}}で入手できる。
関連論文リスト
- RoScenes: A Large-scale Multi-view 3D Dataset for Roadside Perception [98.76525636842177]
RoScenesは、最大規模のマルチビューロードサイド認識データセットである。
私たちのデータセットは、驚くべき21.13Mの3Dアノテーションを64,000$m2$で達成しています。
論文 参考訳(メタデータ) (2024-05-16T08:06:52Z) - MOSE: Boosting Vision-based Roadside 3D Object Detection with Scene Cues [12.508548561872553]
Scene cuEsを用いたMonocular 3Dオブジェクト検出のための新しいフレームワークMOSEを提案する。
シーンキューバンクは、同じシーンの複数のフレームからシーンキューを集約するように設計されている。
トランスベースのデコーダは、集約されたシーンキューと3Dオブジェクト位置のための3D位置埋め込みをリフトする。
論文 参考訳(メタデータ) (2024-04-08T08:11:56Z) - CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity [34.025530326420146]
我々は、新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるComplementary-BEVを開発した。
道路カメラを用いたDAIR-V2X-IとRope3Dの公開3次元検出ベンチマークについて広範な実験を行った。
カメラモデルのAPスコアが初めてDAIR-V2X-Iで80%に達する。
論文 参考訳(メタデータ) (2023-10-04T13:38:53Z) - 3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。
まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。
そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文 参考訳(メタデータ) (2023-03-18T05:51:05Z) - BEVHeight: A Robust Framework for Vision-based Roadside 3D Object
Detection [27.921256216924384]
視覚中心の鳥の視線検出法は、路面カメラでは性能が劣る。
この問題に対処するために,BEVHeightと呼ばれるシンプルで効果的なアプローチを提案する。
我々の手法は従来の視覚中心の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-03-15T10:18:53Z) - Rope3D: TheRoadside Perception Dataset for Autonomous Driving and
Monocular 3D Object Detection Task [48.555440807415664]
道路沿いの知覚3Dデータセットに挑戦する最初のハイダイバーシティを提示する。
データセットは50Kイメージと、さまざまなシーンで1.5M以上の3Dオブジェクトで構成されている。
本稿では,様々なセンサや視点によって引き起こされるあいまいさを解決するために,幾何学的制約を活用することを提案する。
論文 参考訳(メタデータ) (2022-03-25T12:13:23Z) - PersFormer: 3D Lane Detection via Perspective Transformer and the
OpenLane Benchmark [109.03773439461615]
PersFormerは、新しいトランスフォーマーベースの空間特徴変換モジュールを備えた、エンドツーエンドのモノクル3Dレーン検出器である。
高品質なアノテーションとシナリオの多様性を備えたOpenLaneと呼ばれる,最初の大規模な3Dレーンデータセットの1つをリリースしました。
論文 参考訳(メタデータ) (2022-03-21T16:12:53Z) - Monocular 3D Vehicle Detection Using Uncalibrated Traffic Cameras
through Homography [12.062095895630563]
本稿では,1台の交通カメラから3次元世界における車両の位置とポーズを抽出する手法を提案する。
道路平面と画像平面の相同性が3D車両の検出に不可欠であることを観察する。
本稿では,BEV画像の歪み検出精度を高めるためのtextittailedr-box と textitdual-view Network アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-29T02:57:37Z) - Robust 2D/3D Vehicle Parsing in CVIS [54.825777404511605]
本研究では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。
提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。
実際に,本手法は2次元検出,インスタンスセグメンテーション,6-DoFのポーズ推定においてSOTA法より優れている。
論文 参考訳(メタデータ) (2021-03-11T03:35:05Z) - Road Curb Detection and Localization with Monocular Forward-view Vehicle
Camera [74.45649274085447]
魚眼レンズを装着した校正単眼カメラを用いて3Dパラメータを推定するロバストな手法を提案する。
我々のアプローチでは、車両が90%以上の精度で、リアルタイムで距離を抑えることができる。
論文 参考訳(メタデータ) (2020-02-28T00:24:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。