論文の概要: Lightweight Spatial Embedding for Vision-based 3D Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2412.05976v1
- Date: Sun, 08 Dec 2024 15:49:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:55:00.701572
- Title: Lightweight Spatial Embedding for Vision-based 3D Occupancy Prediction
- Title(参考訳): 視覚に基づく3次元活動予測のための軽量空間埋め込み
- Authors: Jinqing Zhang, Yanan Zhang, Qingjie Liu, Yunhong Wang,
- Abstract要約: LightOccは、軽量空間埋め込みを利用する革新的な3D占有予測フレームワークである。
LightOccはベースラインの予測精度を大幅に向上させ、Occ3D-nuScenesベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 37.8001844396061
- License:
- Abstract: Occupancy prediction has garnered increasing attention in recent years for its comprehensive fine-grained environmental representation and strong generalization to open-set objects. However, cumbersome voxel features and 3D convolution operations inevitably introduce large overheads in both memory and computation, obstructing the deployment of occupancy prediction approaches in real-time autonomous driving systems. Although some methods attempt to efficiently predict 3D occupancy from 2D Bird's-Eye-View (BEV) features through the Channel-to-Height mechanism, BEV features are insufficient to store all the height information of the scene, which limits performance. This paper proposes LightOcc, an innovative 3D occupancy prediction framework that leverages Lightweight Spatial Embedding to effectively supplement the height clues for the BEV-based representation while maintaining its deployability. Firstly, Global Spatial Sampling is used to obtain the Single-Channel Occupancy from multi-view depth distribution. Spatial-to-Channel mechanism then takes the arbitrary spatial dimension of Single-Channel Occupancy as the feature dimension and extracts Tri-Perspective Views (TPV) Embeddings by 2D convolution. Finally, TPV Embeddings will interact with each other by Lightweight TPV Interaction module to obtain the Spatial Embedding that is optimal supplementary to BEV features. Sufficient experimental results show that LightOcc significantly increases the prediction accuracy of the baseline and achieves state-of-the-art performance on the Occ3D-nuScenes benchmark.
- Abstract(参考訳): 近年, 包括的環境表現とオープンセットオブジェクトへの強力な一般化が注目されている。
しかし、3Dコンボリューション操作は必然的にメモリと計算の両方に大きなオーバーヘッドをもたらし、リアルタイム自動運転システムにおける占有率予測アプローチの展開を妨げている。
2D Bird's-Eye-View(BEV)機能からChannel-to-Height機構を介して3D占有率を効率的に予測しようとする手法もあるが、BEV機能はシーンのすべての高さ情報を格納するには不十分であり、性能が制限されている。
本稿では,軽量空間埋め込みを利用した3次元占有予測フレームワークであるLightOccを提案する。
まず,多視点深度分布から単一チャネル占有率を得るために,グローバル空間サンプリングを用いる。
次に、空間-チャネル機構は、単一チャネルの任意の空間次元を特徴次元として取り、2次元畳み込みによるトリパースペクティブビュー(TPV)埋め込みを抽出する。
最後に、TPV埋め込みは軽量TPVインタラクションモジュールによって相互に相互作用し、BEV機能に最適な空間埋め込みを得る。
Occ3D-nuScenesベンチマークでは,LightOccはベースラインの予測精度を著しく向上し,最先端性能を実現している。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - LSSInst: Improving Geometric Modeling in LSS-Based BEV Perception with Instance Representation [10.434754671492723]
本稿では,BEVおよびインスタンス表現をタンデムに組み込んだ2段階物体検出器であるLSSInstを提案する。
提案した検出器は、既存のLSSベースのBEVネットワークに柔軟に統合可能な、きめ細かいピクセルレベルの特徴を利用する。
提案するフレームワークは,高性能な一般化能力と性能を備え,ベルやホイッスルを使わずに,現代のLSSベースのBEV認識手法の性能を向上させる。
論文 参考訳(メタデータ) (2024-11-09T13:03:54Z) - BEVSpread: Spread Voxel Pooling for Bird's-Eye-View Representation in Vision-based Roadside 3D Object Detection [47.74067616658986]
視覚に基づく道路沿いの3D物体検出は、自律運転領域で注目を集めている。
この知見に触発されて,BEVSpreadと呼ばれる新しいボクセルプール方式を提案する。
BeVSpreadは既存のフラストタルベースのBEV法の性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-06-13T03:33:36Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - FlashOcc: Fast and Memory-Efficient Occupancy Prediction via
Channel-to-Height Plugin [32.172269679513285]
FlashOCCは、高速かつメモリ効率の高い占有率予測を集約する。
チャネル・ツー・ハイト変換は、BEVから出力ロジットを3次元空間に持ち上げるために導入された。
その結果,従来の最先端手法よりもプラグ・アンド・プレイ・パラダイムが優れていることが実証された。
論文 参考訳(メタデータ) (2023-11-18T15:28:09Z) - CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity [34.025530326420146]
我々は、新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるComplementary-BEVを開発した。
道路カメラを用いたDAIR-V2X-IとRope3Dの公開3次元検出ベンチマークについて広範な実験を行った。
カメラモデルのAPスコアが初めてDAIR-V2X-Iで80%に達する。
論文 参考訳(メタデータ) (2023-10-04T13:38:53Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。