論文の概要: NVAutoNet: Fast and Accurate 360$^{\circ}$ 3D Perception For Self
Driving
- arxiv url: http://arxiv.org/abs/2303.12976v1
- Date: Thu, 23 Mar 2023 00:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 15:58:48.632694
- Title: NVAutoNet: Fast and Accurate 360$^{\circ}$ 3D Perception For Self
Driving
- Title(参考訳): nvautonet: 自己運転のための高速で正確な360$^{\circ}$ 3d知覚
- Authors: Trung Pham, Mehran Maghoumi, Wanli Jiang, Bala Siva Sashank
Jujjavarapu, Mehdi Sajjadi Xin Liu, Hsuan-Chu Lin, Bor-Jeng Chen, Giang
Truong, Chao Fang, Junghyun Kwon, Minwoo Park
- Abstract要約: 我々は、自動運転のためのエンドツーエンドのサラウンドカメラ認識システムを導入する。
我々の知覚システムは、新しいマルチタスク・マルチカメラネットワークである。
大きさ、方向、障害物の位置、駐車場、自由空間などの3D信号の豊富なコレクションを生成する。
- 参考スコア(独自算出の注目度): 5.583537695021318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust real-time perception of 3D world is essential to the autonomous
vehicle. We introduce an end-to-end surround camera perception system for
self-driving. Our perception system is a novel multi-task, multi-camera network
which takes a variable set of time-synced camera images as input and produces a
rich collection of 3D signals such as sizes, orientations, locations of
obstacles, parking spaces and free-spaces, etc. Our perception network is
modular and end-to-end: 1) the outputs can be consumed directly by downstream
modules without any post-processing such as clustering and fusion -- improving
speed of model deployment and in-car testing 2) the whole network training is
done in one single stage -- improving speed of model improvement and
iterations. The network is well designed to have high accuracy while running at
53 fps on NVIDIA Orin SoC (system-on-a-chip). The network is robust to sensor
mounting variations (within some tolerances) and can be quickly customized for
different vehicle types via efficient model fine-tuning thanks of its
capability of taking calibration parameters as additional inputs during
training and testing. Most importantly, our network has been successfully
deployed and being tested on real roads.
- Abstract(参考訳): 3D世界に対するロバストなリアルタイム認識は、自動運転車にとって不可欠である。
我々は、自動運転のためのエンドツーエンドのサラウンドカメラ認識システムを導入する。
私たちの知覚システムは,様々な時間同期カメラを入力として,サイズ,方向,障害物の位置,駐車スペース,フリースペースなどの3d信号の豊富なコレクションを生成する,新しいマルチタスクマルチカメラネットワークである。
私たちの知覚ネットワークはモジュラーでエンドツーエンドです。
1)アウトプットは、クラスタリングやフュージョンのようなポストプロセスなしで、下流モジュールによって直接消費できる -- モデルのデプロイと車内テストのスピードを改善する。
2) ネットワークトレーニングは1つのステージで行われ、モデルの改善とイテレーションのスピードが向上します。
このネットワークは、nvidia orin soc(system-on-a-chip)上で53fpsで動作しながら、高精度に設計されている。
ネットワークはセンサー搭載のバリエーションに頑健であり、トレーニングやテスト中にキャリブレーションパラメータを追加入力として使用することで、効率的なモデルの微調整により、さまざまな車両タイプに対して迅速にカスタマイズすることができる。
最も重要なことは、私たちのネットワークは実際の道路でうまくデプロイされ、テストされています。
関連論文リスト
- FastOcc: Accelerating 3D Occupancy Prediction by Fusing the 2D
Bird's-Eye View and Perspective View [46.81548000021799]
自律運転において、3D占有率予測は、より包括的な3Dシーンの理解のために、ボクセル的なステータスとセマンティックラベルを出力する。
近年,ビュートランスフォーメーション技術,地味ラベル生成,精巧なネットワーク設計など,この課題のさまざまな側面を幅広く研究している。
FastOccと呼ばれる新しい手法が提案され、精度を維持しながらモデルを高速化する。
Occ3D-nuScenesベンチマークの実験は、FastOccが高速な推論速度を達成することを示した。
論文 参考訳(メタデータ) (2024-03-05T07:01:53Z) - Towards Efficient 3D Object Detection in Bird's-Eye-View Space for Autonomous Driving: A Convolutional-Only Approach [13.513005108086006]
BEVENetと呼ばれるBEVベースの効率的な3D検出フレームワークを提案する。
BEVENetは、NuScenesチャレンジに対する現代の最先端(SOTA)アプローチよりも3$times$高速である。
実験の結果,BEVENetは現代の最先端(SOTA)アプローチよりも3$times$高速であることがわかった。
論文 参考訳(メタデータ) (2023-12-01T14:52:59Z) - Understanding the Robustness of 3D Object Detection with Bird's-Eye-View
Representations in Autonomous Driving [31.98600806479808]
Bird's-Eye-View (BEV)表現は、一般的なベンチマークでカメラ入力を備えた3D検出器の性能を大幅に改善した。
様々な代表モデルの自然的・敵対的ロバスト性を広範囲な環境下で評価する。
本稿では,時間的3次元空間に逆パッチを適用して,その整合性を保証する3次元一貫したパッチアタックを提案する。
論文 参考訳(メタデータ) (2023-03-30T11:16:58Z) - Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction [84.94140661523956]
本稿では,2つの垂直面を追加してBEVに付随するトリ・パースペクティブ・ビュー(TPV)表現を提案する。
3次元空間の各点を3次元平面上の投影された特徴をまとめてモデル化する。
実験結果から,本モデルは全ボクセルのセマンティック占有率を効果的に予測できることが示唆された。
論文 参考訳(メタデータ) (2023-02-15T17:58:10Z) - Fast-BEV: A Fast and Strong Bird's-Eye View Perception Baseline [76.48192454417138]
Bird's-Eye View (BEV)の表現は、次世代自動運転車(AV)の認識の基礎として期待されている。
本稿では,車載チップ上で高速なBEV認識を実現するフレームワークであるFast-BEVを提案する。
論文 参考訳(メタデータ) (2023-01-29T18:43:31Z) - Ego Vehicle Speed Estimation using 3D Convolution with Masked Attention [0.0]
本稿では,エゴ車の速度を推定するマスク付きアテンションアーキテクチャを用いた3D-CNNを提案する。
公開されている2つのデータセット、nuImagesとKITTIで実験を行う。
論文 参考訳(メタデータ) (2022-12-11T07:22:25Z) - LiDAR-based 4D Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,両タスクの現在の最先端手法よりも優れた精度を実現する。
DS-Netを4次元パノプティカルLiDARセグメンテーションに拡張し、一列のLiDARフレーム上で時間的に統一されたインスタンスクラスタリングを行う。
論文 参考訳(メタデータ) (2022-03-14T15:25:42Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。