論文の概要: Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2302.07817v1
- Date: Wed, 15 Feb 2023 17:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 14:11:02.924931
- Title: Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction
- Title(参考訳): 視覚に基づく3次元semantic occupancy 予測のための3次元視点
- Authors: Yuanhui Huang, Wenzhao Zheng, Yunpeng Zhang, Jie Zhou, Jiwen Lu
- Abstract要約: 本稿では,2つの垂直面を追加してBEVに付随するトリ・パースペクティブ・ビュー(TPV)表現を提案する。
3次元空間の各点を3次元平面上の投影された特徴をまとめてモデル化する。
実験結果から,本モデルは全ボクセルのセマンティック占有率を効果的に予測できることが示唆された。
- 参考スコア(独自算出の注目度): 84.94140661523956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern methods for vision-centric autonomous driving perception widely adopt
the bird's-eye-view (BEV) representation to describe a 3D scene. Despite its
better efficiency than voxel representation, it has difficulty describing the
fine-grained 3D structure of a scene with a single plane. To address this, we
propose a tri-perspective view (TPV) representation which accompanies BEV with
two additional perpendicular planes. We model each point in the 3D space by
summing its projected features on the three planes. To lift image features to
the 3D TPV space, we further propose a transformer-based TPV encoder
(TPVFormer) to obtain the TPV features effectively. We employ the attention
mechanism to aggregate the image features corresponding to each query in each
TPV plane. Experiments show that our model trained with sparse supervision
effectively predicts the semantic occupancy for all voxels. We demonstrate for
the first time that using only camera inputs can achieve comparable performance
with LiDAR-based methods on the LiDAR segmentation task on nuScenes. Code:
https://github.com/wzzheng/TPVFormer.
- Abstract(参考訳): 視覚中心の自律運転知覚のための現代の手法は、3Dシーンを記述するために鳥の目視(BEV)表現を広く採用している。
ボクセル表現よりも効率が良いにもかかわらず、シーンの微細な3次元構造を単一の平面で記述することは困難である。
そこで本研究では,bev に2つの垂直平面を付加した3次元ビュー (tpv) 表現を提案する。
3次元空間の各点を3次元平面上の投影された特徴をまとめてモデル化する。
画像特徴を3次元TPV空間に引き上げるために,変換器を用いたTPVエンコーダ(TPVFormer)を提案する。
我々は,各問合せに対応する画像特徴を各tpv平面に集約するアテンション機構を用いる。
実験結果から,本モデルは全ボクセルのセマンティック占有率を効果的に予測できることがわかった。
nuScenes上のLiDARセグメンテーションタスクにおいて,カメラ入力のみを用いることで,LiDAR法と同等の性能が得られることを示す。
コード:https://github.com/wzzheng/TPVFormer。
関連論文リスト
- VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving [44.91443640710085]
VisionPADは、自律運転におけるビジョン中心のアルゴリズムのための、新しい自己教師付き事前訓練パラダイムである。
画像のみを監督として多視点表現を再構築する。
これにより、3Dオブジェクトの検出、占有率予測、マップセグメンテーションのパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-11-22T03:59:41Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - Learning Ego 3D Representation as Ray Tracing [42.400505280851114]
我々は、制約のないカメラビューからエゴ3D表現学習のための新しいエンドツーエンドアーキテクチャを提案する。
レイトレーシングの原理にインスパイアされた我々は、学習可能なエゴ3D表現として「虚視」の偏極格子を設計する。
我々のモデルはすべての最先端の代替品を著しく上回ります。
論文 参考訳(メタデータ) (2022-06-08T17:55:50Z) - Voxelized 3D Feature Aggregation for Multiview Detection [15.465855460519446]
VFA, Voxelized 3D feature aggregate, for feature transformation and aggregate in multi-view detection。
具体的には、3D空間をボクセル化し、それぞれのカメラビューにボクセルを投影し、2D機能とこれらプロジェクションされたボクセルを関連付ける。
これにより、同じ垂直線に沿って2次元特徴を識別して集約し、プロジェクション歪みを広範囲に緩和することができる。
論文 参考訳(メタデータ) (2021-12-07T03:38:50Z) - Monocular Road Planar Parallax Estimation [25.36368935789501]
乾燥可能な表面および周囲環境の3次元構造を推定することは、補助的かつ自律的な運転にとって重要な課題である。
単眼画像からの3Dセンシングのための新しいディープニューラルネットワークであるRoad Planar Parallax Attention Network (RPANet)を提案する。
RPANetは、路面のホモグラフィに整列した一対の画像を入力として取り、3D再構成のための$gamma$mapを出力する。
論文 参考訳(メタデータ) (2021-11-22T10:03:41Z) - Multi-Plane Program Induction with 3D Box Priors [110.6726150681556]
1つの画像からプログラムライクなシーン表現を推論するBox Program Injection (BPI)を提案する。
BPIは同時に、複数の2次元平面上の繰り返し構造、平面の3次元位置と向き、およびカメラパラメータをモデル化する。
ニューラルネットワークを使って、点の消滅やワイヤーフレーム線などの視覚的手がかりを推論し、検索ベースのアルゴリズムを誘導し、最もよく画像を説明するプログラムを見つける。
論文 参考訳(メタデータ) (2020-11-19T18:07:46Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。