論文の概要: NVAutoNet: Fast and Accurate 360$^{\circ}$ 3D Visual Perception For Self
Driving
- arxiv url: http://arxiv.org/abs/2303.12976v4
- Date: Mon, 27 Nov 2023 22:07:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 16:42:41.810342
- Title: NVAutoNet: Fast and Accurate 360$^{\circ}$ 3D Visual Perception For Self
Driving
- Title(参考訳): nvautonet: 自己運転のための高速で正確な360$^{\circ}$ 3d視覚知覚
- Authors: Trung Pham, Mehran Maghoumi, Wanli Jiang, Bala Siva Sashank
Jujjavarapu, Mehdi Sajjadi, Xin Liu, Hsuan-Chu Lin, Bor-Jeng Chen, Giang
Truong, Chao Fang, Junghyun Kwon, Minwoo Park
- Abstract要約: NVAutoNetは、自動走行車に特化されたBird's-Eye-View(BEV)知覚ネットワークである。
NVAutoNetは、同期カメライメージを入力として、障害物、自由空間、駐車場などの3D信号を予測する。
NVAutoNetは、NVIDIA Orin SOC上で毎秒53フレームで動作する。
- 参考スコア(独自算出の注目度): 8.032422644685475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving robust and real-time 3D perception is fundamental for autonomous
vehicles. While most existing 3D perception methods prioritize detection
accuracy, they often overlook critical aspects such as computational
efficiency, onboard chip deployment friendliness, resilience to sensor mounting
deviations, and adaptability to various vehicle types. To address these
challenges, we present NVAutoNet: a specialized Bird's-Eye-View (BEV)
perception network tailored explicitly for automated vehicles. NVAutoNet takes
synchronized camera images as input and predicts 3D signals like obstacles,
freespaces, and parking spaces. The core of NVAutoNet's architecture (image and
BEV backbones) relies on efficient convolutional networks, optimized for high
performance using TensorRT. More importantly, our image-to-BEV transformation
employs simple linear layers and BEV look-up tables, ensuring rapid inference
speed. Trained on an extensive proprietary dataset, NVAutoNet consistently
achieves elevated perception accuracy, operating remarkably at 53 frames per
second on the NVIDIA DRIVE Orin SoC. Notably, NVAutoNet demonstrates resilience
to sensor mounting deviations arising from diverse car models. Moreover,
NVAutoNet excels in adapting to varied vehicle types, facilitated by
inexpensive model fine-tuning procedures that expedite compatibility
adjustments.
- Abstract(参考訳): 堅牢でリアルタイムな3D認識を実現することは、自動運転車にとって基本である。
既存の多くの3D認識手法は検出精度を優先するが、計算効率、搭載チップの配置親和性、センサーの配置偏差に対するレジリエンス、様々な車両タイプへの適応性といった重要な側面をしばしば見落としている。
これらの課題に対処するために、我々は、自動車両用に明示的に調整された専用Bird's-Eye-View(BEV)知覚ネットワークであるNVAutoNetを紹介した。
NVAutoNetは、同期カメライメージを入力として、障害物、自由空間、駐車場などの3D信号を予測する。
NVAutoNetのアーキテクチャ(イメージとBEVバックボーン)のコアは、TensorRTを使用した高性能に最適化された効率的な畳み込みネットワークに依存している。
さらに重要なことは、画像からBEVへの変換は単純な線形層とBEVルックアップテーブルを使用し、高速な推論速度を保証することである。
広範なプロプライエタリなデータセットに基づいてトレーニングされたNVAutoNetは、NVIDIA DRIVE Orin SoC上で、毎秒53フレームで、常に高い認識精度を実現している。
特に、NVAutoNetは、多様な自動車モデルから生じるセンサー装着偏差に対するレジリエンスを示す。
さらに、nvautonetは、互換性の調整を迅速に行う安価なモデルの微調整手順により、様々な車両タイプへの適応に優れている。
関連論文リスト
- Fast Occupancy Network [15.759329665907229]
Occupancy Networkは、エゴ車周辺の特定3次元空間におけるボクセルのカテゴリを予測する。
本稿では, 変形可能な2次元畳み込み層を用いて, BEV機能を3次元ボクセル機能に引き上げる, 単純かつ高速なOccupancy Networkモデルを提案する。
また、計算コストを少なくして性能を向上させるために、効率的なボクセル特徴ピラミッドネットワーク(FPN)モジュールを提案する。
論文 参考訳(メタデータ) (2024-12-10T03:46:03Z) - FastOcc: Accelerating 3D Occupancy Prediction by Fusing the 2D
Bird's-Eye View and Perspective View [46.81548000021799]
自律運転において、3D占有率予測は、より包括的な3Dシーンの理解のために、ボクセル的なステータスとセマンティックラベルを出力する。
近年,ビュートランスフォーメーション技術,地味ラベル生成,精巧なネットワーク設計など,この課題のさまざまな側面を幅広く研究している。
FastOccと呼ばれる新しい手法が提案され、精度を維持しながらモデルを高速化する。
Occ3D-nuScenesベンチマークの実験は、FastOccが高速な推論速度を達成することを示した。
論文 参考訳(メタデータ) (2024-03-05T07:01:53Z) - Towards Efficient 3D Object Detection in Bird's-Eye-View Space for Autonomous Driving: A Convolutional-Only Approach [13.513005108086006]
BEVENetと呼ばれるBEVベースの効率的な3D検出フレームワークを提案する。
BEVENetは、NuScenesチャレンジに対する現代の最先端(SOTA)アプローチよりも3$times$高速である。
実験の結果,BEVENetは現代の最先端(SOTA)アプローチよりも3$times$高速であることがわかった。
論文 参考訳(メタデータ) (2023-12-01T14:52:59Z) - Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction [84.94140661523956]
本稿では,2つの垂直面を追加してBEVに付随するトリ・パースペクティブ・ビュー(TPV)表現を提案する。
3次元空間の各点を3次元平面上の投影された特徴をまとめてモデル化する。
実験結果から,本モデルは全ボクセルのセマンティック占有率を効果的に予測できることが示唆された。
論文 参考訳(メタデータ) (2023-02-15T17:58:10Z) - Fast-BEV: A Fast and Strong Bird's-Eye View Perception Baseline [76.48192454417138]
Bird's-Eye View (BEV)の表現は、次世代自動運転車(AV)の認識の基礎として期待されている。
本稿では,車載チップ上で高速なBEV認識を実現するフレームワークであるFast-BEVを提案する。
論文 参考訳(メタデータ) (2023-01-29T18:43:31Z) - Ego Vehicle Speed Estimation using 3D Convolution with Masked Attention [0.0]
本稿では,エゴ車の速度を推定するマスク付きアテンションアーキテクチャを用いた3D-CNNを提案する。
公開されている2つのデータセット、nuImagesとKITTIで実験を行う。
論文 参考訳(メタデータ) (2022-12-11T07:22:25Z) - LiDAR-based 4D Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,両タスクの現在の最先端手法よりも優れた精度を実現する。
DS-Netを4次元パノプティカルLiDARセグメンテーションに拡張し、一列のLiDARフレーム上で時間的に統一されたインスタンスクラスタリングを行う。
論文 参考訳(メタデータ) (2022-03-14T15:25:42Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。