論文の概要: VoxDet: Rethinking 3D Semantic Occupancy Prediction as Dense Object Detection
- arxiv url: http://arxiv.org/abs/2506.04623v1
- Date: Thu, 05 Jun 2025 04:31:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.531082
- Title: VoxDet: Rethinking 3D Semantic Occupancy Prediction as Dense Object Detection
- Title(参考訳): VoxDet:Dense Object Detectionとして3Dセマンティック動作予測を再考する
- Authors: Wuyang Li, Zhu Yu, Alexandre Alahi,
- Abstract要約: 3Dのセマンティック占有予測は,周囲環境の3D形状とセマンティックスを再構築することを目的としている。
密接なボクセルラベルでは、以前の研究は通常、これを密接なセグメンテーションタスクとして定式化し、それぞれのボクセルを独立に分類する。
本稿では,Voxelレベルの占有率予測を高密度オブジェクト検出として再構成する,インスタンス中心のフレームワークであるVoxDetを提案する。
- 参考スコア(独自算出の注目度): 67.09867723723934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D semantic occupancy prediction aims to reconstruct the 3D geometry and semantics of the surrounding environment. With dense voxel labels, prior works typically formulate it as a dense segmentation task, independently classifying each voxel. However, this paradigm neglects critical instance-centric discriminability, leading to instance-level incompleteness and adjacent ambiguities. To address this, we highlight a free lunch of occupancy labels: the voxel-level class label implicitly provides insight at the instance level, which is overlooked by the community. Motivated by this observation, we first introduce a training-free Voxel-to-Instance (VoxNT) trick: a simple yet effective method that freely converts voxel-level class labels into instance-level offset labels. Building on this, we further propose VoxDet, an instance-centric framework that reformulates the voxel-level occupancy prediction as dense object detection by decoupling it into two sub-tasks: offset regression and semantic prediction. Specifically, based on the lifted 3D volume, VoxDet first uses (a) Spatially-decoupled Voxel Encoder to generate disentangled feature volumes for the two sub-tasks, which learn task-specific spatial deformation in the densely projected tri-perceptive space. Then, we deploy (b) Task-decoupled Dense Predictor to address this task via dense detection. Here, we first regress a 4D offset field to estimate distances (6 directions) between voxels and object borders in the voxel space. The regressed offsets are then used to guide the instance-level aggregation in the classification branch, achieving instance-aware prediction. Experiments show that VoxDet can be deployed on both camera and LiDAR input, jointly achieving state-of-the-art results on both benchmarks. VoxDet is not only highly efficient, but also achieves 63.0 IoU on the SemanticKITTI test set, ranking 1st on the online leaderboard.
- Abstract(参考訳): 3Dのセマンティック占有予測は,周囲環境の3D形状とセマンティックスを再構築することを目的としている。
密接なボクセルラベルでは、以前の研究は通常、これを密接なセグメンテーションタスクとして定式化し、それぞれのボクセルを独立に分類する。
しかし、このパラダイムはクリティカルなインスタンス中心の差別性を無視し、インスタンスレベルの不完全性と隣接する曖昧さをもたらす。
ボクセルレベルのクラスラベルは、コミュニティが見落としているインスタンスレベルの洞察を暗黙的に提供します。
本研究の目的は,Voxel レベルのクラスラベルをインスタンスレベルのオフセットラベルに自由に変換する,訓練不要な Voxel-to-Instance (VoxNT) 手法を導入することである。
これに基づいて、オフセット回帰とセマンティック予測の2つのサブタスクに分離することで、ボクセルレベルの占有率予測を高密度オブジェクト検出として再構成する、インスタンス中心のフレームワークであるVoxDetを提案する。
具体的には、持ち上げられた3Dボリュームに基づいて、VoxDetが最初に使う
(a)空間的に分離されたVoxel Encoderは、2つのサブタスクに対して、密に投影された三感空間におけるタスク固有の空間変形を学習する不整形特徴量を生成する。
そして、デプロイします。
(b)タスク分離Dense予測器は、密集検知により、このタスクに対処する。
ここでは、最初に4次元オフセット場を回帰し、ボクセル空間におけるオブジェクト境界とボクセルの距離(6方向)を推定する。
次に、回帰オフセットを使用して、分類ブランチのインスタンスレベルのアグリゲーションをガイドし、インスタンス認識予測を達成する。
実験によると、VoxDetはカメラとLiDARの両方の入力にデプロイでき、両方のベンチマークで最先端の結果を共同で達成できる。
VoxDetは非常に効率的であるだけでなく、SemanticKITTIテストセットで63.0 IoUを達成した。
関連論文リスト
- OccLE: Label-Efficient 3D Semantic Occupancy Prediction [48.50138308129873]
OccLEはラベル効率のよい3Dセマンティック動作予測である。
イメージとLiDARを入力として取り、限られたvoxelアノテーションでハイパフォーマンスを維持する。
実験の結果,OccLE は Voxel アノテーションの10% しか使用せず,競争性能が向上していることがわかった。
論文 参考訳(メタデータ) (2025-05-27T01:41:28Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding [56.079013202051094]
ボックスレベルのアノテーションを信号として転送する新しい手法であるSegVGを提案する。
このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
論文 参考訳(メタデータ) (2024-07-03T15:30:45Z) - SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object
Detection [78.90102636266276]
SASA(Semantics-Augmented Set Abstraction)と呼ばれる新しい集合抽象化手法を提案する。
そこで本研究では, 推定点前景スコアに基づいて, より重要な前景点の維持を支援するセマンティックス誘導点サンプリングアルゴリズムを提案する。
実際には、SASAは、前景オブジェクトに関連する貴重な点を識別し、ポイントベースの3D検出のための特徴学習を改善するのに有効である。
論文 参考訳(メタデータ) (2022-01-06T08:54:47Z) - Not All Voxels Are Equal: Semantic Scene Completion from the Point-Voxel
Perspective [21.92736190195887]
セマンティック・シーン・コンプリート(SSC)を再考し,3次元シーンのセマンティック・シーン・コンプリート表現の予測に有用であることを示す。
本稿では,この課題に対する新しいポイント・ボクセル・アグリゲーション・ネットワークを提案する。
我々のモデルは2つのベンチマークにおける最先端の計算を大きなマージンで上回り、入力は深度画像のみである。
論文 参考訳(メタデータ) (2021-12-24T03:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。