論文の概要: InverseMatrixVT3D: An Efficient Projection Matrix-Based Approach for 3D Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2401.12422v2
- Date: Mon, 29 Apr 2024 07:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 23:55:37.280204
- Title: InverseMatrixVT3D: An Efficient Projection Matrix-Based Approach for 3D Occupancy Prediction
- Title(参考訳): 逆行列VT3D:3次元動作予測のための効率的な投影行列ベースアプローチ
- Authors: Zhenxing Ming, Julie Stephany Berrio, Mao Shan, Stewart Worrall,
- Abstract要約: InverseMatrixVT3Dは,多視点画像特徴量を3次元特徴量に変換することで,セマンティック占有率の予測を行う。
プロジェクション行列に対するスパース行列処理手法を導入し,GPUメモリ使用率を最適化する。
本手法は,自動運転と道路安全に不可欠な,脆弱な道路利用者(VRU)の検出において,最高の性能を実現する。
- 参考スコア(独自算出の注目度): 11.33083039877258
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper introduces InverseMatrixVT3D, an efficient method for transforming multi-view image features into 3D feature volumes for 3D semantic occupancy prediction. Existing methods for constructing 3D volumes often rely on depth estimation, device-specific operators, or transformer queries, which hinders the widespread adoption of 3D occupancy models. In contrast, our approach leverages two projection matrices to store the static mapping relationships and matrix multiplications to efficiently generate global Bird's Eye View (BEV) features and local 3D feature volumes. Specifically, we achieve this by performing matrix multiplications between multi-view image feature maps and two sparse projection matrices. We introduce a sparse matrix handling technique for the projection matrices to optimize GPU memory usage. Moreover, a global-local attention fusion module is proposed to integrate the global BEV features with the local 3D feature volumes to obtain the final 3D volume. We also employ a multi-scale supervision mechanism to enhance performance further. Extensive experiments performed on the nuScenes and SemanticKITTI datasets reveal that our approach not only stands out for its simplicity and effectiveness but also achieves the top performance in detecting vulnerable road users (VRU), crucial for autonomous driving and road safety. The code has been made available at: https://github.com/DanielMing123/InverseMatrixVT3D
- Abstract(参考訳): 本稿では,多視点画像特徴量を3次元特徴量に変換する手法であるInverseMatrixVT3Dを提案する。
既存の3Dボリュームの構築方法は、しばしば深さ推定、デバイス固有の演算子、トランスフォーマークエリに依存しており、3D占有モデルの普及を妨げている。
対照的に,本手法では2つのプロジェクション行列を用いて静的マッピング関係と行列乗算を保存し,グローバルバードアイビュー(BEV)機能と局所的な3次元特徴量を生成する。
具体的には、マルチビュー画像特徴写像と2つのスパース投影行列の行列乗算を行うことにより、これを実現する。
プロジェクション行列に対するスパース行列処理手法を導入し,GPUメモリ使用率を最適化する。
さらに、グローバルなBEV特徴量とローカルな3D特徴量を統合することで、最終3Dボリュームを得るため、グローバルなローカルアテンション融合モジュールを提案する。
また,性能向上のため,マルチスケールの監視機構も採用している。
nuScenesとSemanticKITTIデータセットで実施された大規模な実験により、我々のアプローチは、その単純さと有効性だけでなく、自動運転車と道路安全にとって不可欠な、脆弱な道路利用者(VRU)を検出する上で最高のパフォーマンスを達成していることが明らかとなった。
コードはhttps://github.com/DanielMing123/InverseMatrixVT3Dで公開されている。
関連論文リスト
- Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - WidthFormer: Toward Efficient Transformer-based BEV View Transformation [23.055953867959744]
WidthFormerは計算効率が高く、堅牢で、デプロイに特別なエンジニアリング作業を必要としない。
本稿では,3次元幾何情報を正確にカプセル化できる新しい3次元位置符号化機構を提案する。
私たちのモデルは極めて効率的です。例えば、256タイムの704ドルの入力イメージを使用すると、NVIDIA 3090 GPUとHorizon Journey-5ソリューションで1.5ミリ秒と2.8ミリ秒のレイテンシを実現します。
論文 参考訳(メタデータ) (2024-01-08T11:50:23Z) - Regulating Intermediate 3D Features for Vision-Centric Autonomous
Driving [26.03800936700545]
本稿では,ボリュームレンダリングの助けを借りて,中間的な高密度な3次元特徴を規制することを提案する。
Occ3DデータセットとnuScenesデータセットの実験結果から、ヴァンパイアは密度の高い3D特徴の微細で適切な抽出を容易にすることが示された。
論文 参考訳(メタデータ) (2023-12-19T04:09:05Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - OccFormer: Dual-path Transformer for Vision-based 3D Semantic Occupancy
Prediction [16.66987810790077]
OccFormerは、意味的占有予測のために3Dボリュームを処理するデュアルパストランスフォーマーネットワークである。
カメラが生成する3Dボクセル機能の長距離、ダイナミック、効率的なエンコーディングを実現している。
論文 参考訳(メタデータ) (2023-04-11T16:15:50Z) - HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object
Detection [39.64891219500416]
3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。
本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。
論文 参考訳(メタデータ) (2021-04-02T06:34:49Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。