論文の概要: Regulating Intermediate 3D Features for Vision-Centric Autonomous
Driving
- arxiv url: http://arxiv.org/abs/2312.11837v1
- Date: Tue, 19 Dec 2023 04:09:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 17:14:01.138246
- Title: Regulating Intermediate 3D Features for Vision-Centric Autonomous
Driving
- Title(参考訳): 視覚中心自律運転のための中間3次元特徴の制御
- Authors: Junkai Xu, Liang Peng, Haoran Cheng, Linxuan Xia, Qi Zhou, Dan Deng,
Wei Qian, Wenxiao Wang, Deng Cai
- Abstract要約: 本稿では,ボリュームレンダリングの助けを借りて,中間的な高密度な3次元特徴を規制することを提案する。
Occ3DデータセットとnuScenesデータセットの実験結果から、ヴァンパイアは密度の高い3D特徴の微細で適切な抽出を容易にすることが示された。
- 参考スコア(独自算出の注目度): 26.03800936700545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-camera perception tasks have gained significant attention in the field
of autonomous driving. However, existing frameworks based on Lift-Splat-Shoot
(LSS) in the multi-camera setting cannot produce suitable dense 3D features due
to the projection nature and uncontrollable densification process. To resolve
this problem, we propose to regulate intermediate dense 3D features with the
help of volume rendering. Specifically, we employ volume rendering to process
the dense 3D features to obtain corresponding 2D features (e.g., depth maps,
semantic maps), which are supervised by associated labels in the training. This
manner regulates the generation of dense 3D features on the feature level,
providing appropriate dense and unified features for multiple perception tasks.
Therefore, our approach is termed Vampire, stands for "Volume rendering As
Multi-camera Perception Intermediate feature REgulator". Experimental results
on the Occ3D and nuScenes datasets demonstrate that Vampire facilitates
fine-grained and appropriate extraction of dense 3D features, and is
competitive with existing SOTA methods across diverse downstream perception
tasks like 3D occupancy prediction, LiDAR segmentation and 3D objection
detection, while utilizing moderate GPU resources. We provide a video
demonstration in the supplementary materials and Codes are available at
github.com/cskkxjk/Vampire.
- Abstract(参考訳): マルチカメラ認識タスクは自動運転の分野で大きな注目を集めている。
しかし,マルチカメラ環境でのリフトプレートシュート(lss)に基づく既存のフレームワークでは,投影性や制御不能なデンシフィケーションプロセスなどにより,密集した3d特徴が得られない。
この問題を解決するために,ボリュームレンダリングを用いて,中間密度の3次元特徴量を制御することを提案する。
具体的には、ボリュームレンダリングを用いて密度の高い3d特徴を処理し、トレーニングで関連するラベルによって監督される対応する2d特徴(深度マップ、意味マップなど)を得る。
この方法では、機能レベルで密度の高い3d特徴の生成を規制し、複数の知覚タスクに適切な密度と統一的な特徴を提供する。
したがって,本手法は Vampire と呼ばれ,"Volume rendering As Multi-camera Perception Intermediate Feature Regulator" の略である。
Occ3DとnuScenesデータセットの実験結果によると、Vampireは高密度な3D特徴のきめ細かい抽出を容易にし、3D占有率予測、LiDARセグメンテーション、および3Dオブジェクト検出など、さまざまな下流認識タスクにまたがる既存のSOTAメソッドと競合し、適度なGPUリソースを活用する。
補足資料のデモビデオを提供し、github.com/cskkxjk/Vampire.comでコードを提供している。
関連論文リスト
- Weakly Supervised Monocular 3D Detection with a Single-View Image [58.57978772009438]
モノクロ3D検出は、単一視点画像からの正確な3Dオブジェクトのローカライゼーションを目的としている。
SKD-WM3Dは弱い教師付き単分子3D検出フレームワークである。
我々は,SKD-WM3Dが最先端技術を超え,多くの完全教師付き手法と同等であることを示した。
論文 参考訳(メタデータ) (2024-02-29T13:26:47Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - SRCN3D: Sparse R-CNN 3D for Compact Convolutional Multi-View 3D Object
Detection and Tracking [12.285423418301683]
本稿では,スパースクエリ,ボックスワイズサンプリングによるスパースアテンション,スパース予測を組み込んだ新しい2段フルスパース検出器であるスパースR-CNN3Dを提案する。
nuScenesデータセットの実験では、SRCN3Dは3Dオブジェクト検出とマルチオブジェクト追跡の両方で競合性能を達成している。
論文 参考訳(メタデータ) (2022-06-29T07:58:39Z) - Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data [80.14669385741202]
本稿では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。
我々は、自動走行装置における同期・校正画像とLidarセンサーの可用性を活用している。
私たちのメソッドは、ポイントクラウドや画像アノテーションを一切必要としません。
論文 参考訳(メタデータ) (2022-03-30T12:40:30Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。