論文の概要: SPOT-Occ: Sparse Prototype-guided Transformer for Camera-based 3D Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2602.04240v1
- Date: Wed, 04 Feb 2026 05:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.394223
- Title: SPOT-Occ: Sparse Prototype-guided Transformer for Camera-based 3D Occupancy Prediction
- Title(参考訳): SPOT-Occ:Sparse Prototype-Guided Transformer for Camera-based 3D Occupancy Prediction
- Authors: Suzeyu Chen, Leheng Li, Ying-Cong Chen,
- Abstract要約: プロトタイプベースのスパーストランスフォーマーデコーダを提案する。
私たちの中核となる考え方は、デコーダのプロトタイプに注意を向けさせることです。
我々のモデルはSPOT-Occと呼ばれ、従来の手法よりも高速で優れていた。
- 参考スコア(独自算出の注目度): 33.82331348959048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving highly accurate and real-time 3D occupancy prediction from cameras is a critical requirement for the safe and practical deployment of autonomous vehicles. While this shift to sparse 3D representations solves the encoding bottleneck, it creates a new challenge for the decoder: how to efficiently aggregate information from a sparse, non-uniformly distributed set of voxel features without resorting to computationally prohibitive dense attention. In this paper, we propose a novel Prototype-based Sparse Transformer Decoder that replaces this costly interaction with an efficient, two-stage process of guided feature selection and focused aggregation. Our core idea is to make the decoder's attention prototype-guided. We achieve this through a sparse prototype selection mechanism, where each query adaptively identifies a compact set of the most salient voxel features, termed prototypes, for focused feature aggregation. To ensure this dynamic selection is stable and effective, we introduce a complementary denoising paradigm. This approach leverages ground-truth masks to provide explicit guidance, guaranteeing a consistent query-prototype association across decoder layers. Our model, dubbed SPOT-Occ, outperforms previous methods with a significant margin in speed while also improving accuracy. Source code is released at https://github.com/chensuzeyu/SpotOcc.
- Abstract(参考訳): 高度に正確でリアルタイムな3D占有率予測をカメラから達成することは、自動運転車の安全かつ実用的な展開にとって重要な要件である。
このスパース3D表現へのシフトは符号化ボトルネックを解消するが、デコーダには新たな課題が生じる。
本稿では,プロトタイプベースのスパーストランスフォーマーデコーダを提案する。このコストのかかるインタラクションを,ガイド付き特徴選択と集中集約の効率的な2段階プロセスに置き換える。
私たちの中核となる考え方は、デコーダのプロトタイプに注意を向けさせることです。
それぞれのクエリは、集中した特徴集約のために、最も精巧なボクセル特徴のコンパクトな集合を適応的に識別する。
この動的選択が安定かつ効果的であることを保証するため、補完的な認知パラダイムを導入する。
このアプローチは、デコーダ層間の一貫したクエリ-プロトタイプアソシエーションを保証する、明示的なガイダンスを提供するために、グラウンドトルースマスクを活用する。
提案手法は,SPOT-Occとよばれるモデルで,従来手法よりも精度が向上し,精度が向上した。
ソースコードはhttps://github.com/chensuzeyu/SpotOcc.comで公開されている。
関連論文リスト
- Leveraging Transformer Decoder for Automotive Radar Object Detection [9.764772760421792]
本稿では,新しいトランスフォーマーデコーダを用いた3次元レーダオブジェクト検出のためのトランスフォーマーベースアーキテクチャを提案する。
Pyramid Token Fusion (PTF)は、特徴ピラミッドを統一されたスケール対応トークンシーケンスに変換する。
我々はRADDet上で提案したフレームワークを評価し、最先端のレーダー専用ベースラインよりも大幅に改善した。
論文 参考訳(メタデータ) (2026-01-19T20:44:24Z) - ProtoOcc: Accurate, Efficient 3D Occupancy Prediction Using Dual Branch Encoder-Prototype Query Decoder [8.494947115633682]
ProtoOccは、3Dボクセルの占有状態とセマンティッククラスを予測するために設計された新しい3D占有予測モデルである。
ProtoOccはOcc3D-nuScenesベンチマークで45.02% mIoUで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-12-11T20:55:21Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - Predicting Attention Sparsity in Transformers [0.9786690381850356]
本稿では, 遠心注意の空間パターンを計算前に同定するモデルであるスペーサーファインダーを提案する。
我々の研究は、予測された注目グラフの間隔とリコールの間のトレードオフを広範囲に分析することで、モデル効率を研究するための新しい角度を提供する。
論文 参考訳(メタデータ) (2021-09-24T20:51:21Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。