論文の概要: UniDrive: Towards Universal Driving Perception Across Camera Configurations
- arxiv url: http://arxiv.org/abs/2410.13864v1
- Date: Thu, 17 Oct 2024 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:19:21.258358
- Title: UniDrive: Towards Universal Driving Perception Across Camera Configurations
- Title(参考訳): UniDrive: カメラ構成全体にわたるユニバーサルな運転認識を目指す
- Authors: Ye Li, Wenzhao Zheng, Xiaonan Huang, Kurt Keutzer,
- Abstract要約: 3次元認識は,3次元2次元投影に基づく2次元画像から3次元情報を推測することを目的としている。
カメラ構成をまたいだ一般化は、異なる自動車モデルに自律運転モデルをデプロイする上で重要である。
我々は、カメラ構成全体にわたって普遍的な認識を実現するために、視覚中心の自律運転のための新しいフレームワークUniDriveを提案する。
- 参考スコア(独自算出の注目度): 38.40168936403638
- License:
- Abstract: Vision-centric autonomous driving has demonstrated excellent performance with economical sensors. As the fundamental step, 3D perception aims to infer 3D information from 2D images based on 3D-2D projection. This makes driving perception models susceptible to sensor configuration (e.g., camera intrinsics and extrinsics) variations. However, generalizing across camera configurations is important for deploying autonomous driving models on different car models. In this paper, we present UniDrive, a novel framework for vision-centric autonomous driving to achieve universal perception across camera configurations. We deploy a set of unified virtual cameras and propose a ground-aware projection method to effectively transform the original images into these unified virtual views. We further propose a virtual configuration optimization method by minimizing the expected projection error between original cameras and virtual cameras. The proposed virtual camera projection can be applied to existing 3D perception methods as a plug-and-play module to mitigate the challenges posed by camera parameter variability, resulting in more adaptable and reliable driving perception models. To evaluate the effectiveness of our framework, we collect a dataset on Carla by driving the same routes while only modifying the camera configurations. Experimental results demonstrate that our method trained on one specific camera configuration can generalize to varying configurations with minor performance degradation.
- Abstract(参考訳): 視覚中心の自律運転は、経済的センサーで優れた性能を示した。
基本的なステップとして、3D-2Dプロジェクションに基づく2次元画像から3D情報を推測することを目的としている。
これにより、駆動知覚モデルはセンサーの設定(例えば、カメラの内在と外在)のバリエーションに影響を受けやすい。
しかし、カメラ構成をまたいだ一般化は、異なる自動車モデルに自律運転モデルをデプロイする上で重要である。
本稿では,カメラ構成の共通認識を実現するために,視覚中心の自律運転のための新しいフレームワークUniDriveを提案する。
我々は,仮想カメラの集合をデプロイし,元の画像をこれらの仮想ビューに効果的に変換するための地上認識プロジェクション手法を提案する。
さらに,従来のカメラと仮想カメラとの投影誤差を最小化して,仮想構成最適化手法を提案する。
提案した仮想カメラプロジェクションは、既存の3次元認識手法をプラグ・アンド・プレイモジュールとして適用することで、カメラパラメータの変動による課題を軽減し、より適応的で信頼性の高い駆動認識モデルを実現する。
フレームワークの有効性を評価するため,カメラ構成を変更せずに同じ経路を走行することで,Carla上のデータセットを収集する。
実験結果から,特定のカメラ構成でトレーニングした手法は,性能劣化の少ない様々な構成に一般化可能であることが示された。
関連論文リスト
- Multi-camera Bird's Eye View Perception for Autonomous Driving [17.834495597639805]
他のエージェントや構造の空間的推論を可能にするためには、3Dで知覚出力を生成することが不可欠である。
カメラ画像から所望のBEV表現を達成するための最も基本的なアプローチは、平らな地面を仮定してIPMである。
近年のアプローチでは、ディープニューラルネットワークを使用してBEV空間を直接出力している。
論文 参考訳(メタデータ) (2023-09-16T19:12:05Z) - 3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。
まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。
そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文 参考訳(メタデータ) (2023-03-18T05:51:05Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Rope3D: TheRoadside Perception Dataset for Autonomous Driving and
Monocular 3D Object Detection Task [48.555440807415664]
道路沿いの知覚3Dデータセットに挑戦する最初のハイダイバーシティを提示する。
データセットは50Kイメージと、さまざまなシーンで1.5M以上の3Dオブジェクトで構成されている。
本稿では,様々なセンサや視点によって引き起こされるあいまいさを解決するために,幾何学的制約を活用することを提案する。
論文 参考訳(メタデータ) (2022-03-25T12:13:23Z) - SVDistNet: Self-Supervised Near-Field Distance Estimation on Surround
View Fisheye Cameras [30.480562747903186]
シーンジオメトリの360deg認識は、特に駐車場や都市部の運転シナリオで、自動運転に不可欠です。
カメラパラメータを条件入力として用いる,新しいカメラジオメトリー適応型マルチスケール畳み込み法を提案する。
魚眼ウッドキャップサラウンドビューデータセットに対する我々のアプローチを評価し,従来のアプローチよりも大幅に改善した。
論文 参考訳(メタデータ) (2021-04-09T15:20:20Z) - Infrastructure-based Multi-Camera Calibration using Radial Projections [117.22654577367246]
パターンベースのキャリブレーション技術は、カメラの内在を個別にキャリブレーションするために使用することができる。
Infrastucture-based calibration techniqueはSLAMやStructure-from-Motionで事前に構築した3Dマップを用いて外部情報を推定することができる。
本稿では,インフラストラクチャベースのアプローチを用いて,マルチカメラシステムをスクラッチから完全にキャリブレーションすることを提案する。
論文 参考訳(メタデータ) (2020-07-30T09:21:04Z) - 3D Scene Geometry-Aware Constraint for Camera Localization with Deep
Learning [11.599633757222406]
近年、畳み込みニューラルネットワークに基づくエンドツーエンドのアプローチは、従来の3次元幾何学に基づく手法を達成または超えるように研究されている。
本研究では,絶対カメラポーズ回帰のためのコンパクトネットワークを提案する。
これらの従来の手法から着想を得た3Dシーンの幾何学的制約も、動き、深さ、画像の内容を含むすべての利用可能な情報を活用することによって導入される。
論文 参考訳(メタデータ) (2020-05-13T04:15:14Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。