論文の概要: ProtoOcc: Accurate, Efficient 3D Occupancy Prediction Using Dual Branch Encoder-Prototype Query Decoder
- arxiv url: http://arxiv.org/abs/2412.08774v1
- Date: Wed, 11 Dec 2024 20:55:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:48.059367
- Title: ProtoOcc: Accurate, Efficient 3D Occupancy Prediction Using Dual Branch Encoder-Prototype Query Decoder
- Title(参考訳): ProtoOcc: Dual Branch Encoder-Prototype Query Decoderを用いた高精度3次元実行予測
- Authors: Jungho Kim, Changwon Kang, Dongyoung Lee, Sehwan Choi, Jun Won Choi,
- Abstract要約: ProtoOccは、3Dボクセルの占有状態とセマンティッククラスを予測するために設計された新しい3D占有予測モデルである。
ProtoOccはOcc3D-nuScenesベンチマークで45.02% mIoUで最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 8.494947115633682
- License:
- Abstract: In this paper, we introduce ProtoOcc, a novel 3D occupancy prediction model designed to predict the occupancy states and semantic classes of 3D voxels through a deep semantic understanding of scenes. ProtoOcc consists of two main components: the Dual Branch Encoder (DBE) and the Prototype Query Decoder (PQD). The DBE produces a new 3D voxel representation by combining 3D voxel and BEV representations across multiple scales through a dual branch structure. This design enhances both performance and computational efficiency by providing a large receptive field for the BEV representation while maintaining a smaller receptive field for the voxel representation. The PQD introduces Prototype Queries to accelerate the decoding process. Scene-Adaptive Prototypes are derived from the 3D voxel features of input sample, while Scene-Agnostic Prototypes are computed by applying Scene-Adaptive Prototypes to an Exponential Moving Average during the training phase. By using these prototype-based queries for decoding, we can directly predict 3D occupancy in a single step, eliminating the need for iterative Transformer decoding. Additionally, we propose the Robust Prototype Learning, which injects noise into prototype generation process and trains the model to denoise during the training phase. ProtoOcc achieves state-of-the-art performance with 45.02% mIoU on the Occ3D-nuScenes benchmark. For single-frame method, it reaches 39.56% mIoU with an inference speed of 12.83 FPS on an NVIDIA RTX 3090. Our code can be found at https://github.com/SPA-junghokim/ProtoOcc.
- Abstract(参考訳): 本稿では,3Dボクセルの占有状態とセマンティッククラスをシーンの深いセマンティック理解を通して予測する新しい3D占有予測モデルであるProtoOccを紹介する。
ProtoOccは、Dual Branch Encoder(DBE)とPrototype Query Decoder(PQD)の2つの主要コンポーネントで構成されている。
DBEは、二重分岐構造を通して複数のスケールにわたる3DボクセルとBEV表現を組み合わせることで、新しい3Dボクセル表現を生成する。
この設計は、ボクセル表現に対するより小さな受容場を維持しつつ、BEV表現に対する大きな受容場を提供することにより、性能と計算効率を両立させる。
PQDは復号処理を高速化するPrototype Queriesを導入した。
Scene-Adaptive Prototypes is derived from the 3D voxel features of input sample, and Scene-Agnostic Prototypes are compute by applied Scene-Adaptive Prototypes to an Exponential moving Average during the training phase。
これらのプロトタイプベースのクエリをデコーディングに使用することにより、単一ステップで3D占有率を直接予測し、反復トランスフォーマーデコーディングの必要性を排除できる。
さらに、プロトタイプ生成プロセスにノイズを注入し、トレーニング期間中にモデルを認知させるRobust Prototype Learningを提案する。
ProtoOccはOcc3D-nuScenesベンチマークで45.02% mIoUで最先端のパフォーマンスを達成した。
単フレーム方式では39.56% mIoUに到達し、NVIDIA RTX 3090上での推論速度は12.83 FPSである。
私たちのコードはhttps://github.com/SPA-junghokim/ProtoOcc.orgにある。
関連論文リスト
- WidthFormer: Toward Efficient Transformer-based BEV View Transformation [21.10523575080856]
WidthFormerは、リアルタイム自動運転アプリケーションのためのマルチビューカメラからBirdのEye-View(BEV)表現を計算するトランスフォーマーベースのモジュールである。
まず,3次元幾何情報を正確にカプセル化できる新しい3次元位置符号化機構を提案する。
次に,特徴圧縮による潜在的な情報損失を補償する2つのモジュールを開発する。
論文 参考訳(メタデータ) (2024-01-08T11:50:23Z) - Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D
Reconstruction with Transformers [37.14235383028582]
本稿では,フィードフォワード推論を用いて,単一画像から3次元モデルを効率よく生成する,一視点再構成のための新しい手法を提案する。
提案手法では,2つのトランスフォーマーネットワーク,すなわちポイントデコーダとトリプレーンデコーダを用いて,ハイブリッドトリプレーン・ガウス中間表現を用いて3次元オブジェクトを再構成する。
論文 参考訳(メタデータ) (2023-12-14T17:18:34Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - PVT-SSD: Single-Stage 3D Object Detector with Point-Voxel Transformer [75.2251801053839]
単段3次元検出用ポイント・ボクセル変換器(PVT-SSD)を提案する。
本稿では,voxel から長時間のコンテキストを安価に取得できる Point-Voxel Transformer (PVT) モジュールを提案する。
いくつかの自律走行ベンチマーク実験は,提案手法の有効性と有効性を検証する。
論文 参考訳(メタデータ) (2023-05-11T07:37:15Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。