論文の概要: Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2603.01007v3
- Date: Thu, 05 Mar 2026 07:06:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 15:25:24.159541
- Title: Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving
- Title(参考訳): Dr.Occ: 自律走行用全周カメラによる深部および地域誘導型3D作業
- Authors: Xubo Zhu, Haoyang Zhang, Fei He, Rui Wu, Yanhu Shan, Wen Yang, Huai Yu,
- Abstract要約: 3Dセマンティック占有予測は自律運転知覚に不可欠である。
我々は,奥行きと地域誘導による占領予測の枠組みであるOcc博士を提案する。
我々は,Occ博士がBEVDet4Dを7.43% mIoU,3.09% IoUに改良したことを示す。
- 参考スコア(独自算出の注目度): 18.345382058484166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D semantic occupancy prediction is crucial for autonomous driving perception, offering comprehensive geometric scene understanding and semantic recognition. However, existing methods struggle with geometric misalignment in view transformation due to the lack of pixel-level accurate depth estimation, and severe spatial class imbalance where semantic categories exhibit strong spatial anisotropy. To address these challenges, we propose Dr. Occ, a depth- and region-guided occupancy prediction framework. Specifically, we introduce a depth-guided 2D-to-3D View Transformer (D$^2$-VFormer) that effectively leverages high-quality dense depth cues from MoGe-2 to construct reliable geometric priors, thereby enabling precise geometric alignment of voxel features. Moreover, inspired by the Mixture-of-Experts (MoE) framework, we propose a region-guided Expert Transformer (R/R$^2$-EFormer) that adaptively allocates region-specific experts to focus on different spatial regions, effectively addressing spatial semantic variations. Thus, the two components make complementary contributions: depth guidance ensures geometric alignment, while region experts enhance semantic learning. Experiments on the Occ3D--nuScenes benchmark demonstrate that Dr. Occ improves the strong baseline BEVDet4D by 7.43% mIoU and 3.09% IoU under the full vision-only setting.
- Abstract(参考訳): 3Dセマンティック占有予測は、総合的な幾何学的シーン理解と意味認識を提供する自律運転認識に不可欠である。
しかし、既存の手法では、画素レベルの正確な深度推定の欠如と、意味圏が強い空間異方性を示すような空間クラス不均衡により、ビュートランスフォーメーションにおける幾何学的不整合に苦慮している。
これらの課題に対処するために、奥行きと地域誘導による占領予測フレームワークであるDr. Occを提案する。
具体的には、2D-to-3Dビュー変換器(D$^2$-VFormer)を導入し、MoGe-2からの高品位密度深度キューを効果的に活用し、信頼性の高い幾何学的先行条件を構築することにより、ボクセル特徴の正確な幾何的アライメントを可能にする。
さらに、Mixture-of-Experts (MoE) フレームワークにヒントを得て、地域固有の専門家を適応的に割り当て、異なる空間領域に集中させ、空間的意味的変動に効果的に対処する領域誘導エキスパートトランスフォーマー (R/R$^2$-EFormer) を提案する。
奥行き誘導は幾何学的アライメントを保証する一方、地域の専門家は意味学習を強化する。
Occ3D-nuScenesベンチマークの実験では、Occ博士は、フルビジョンのみの設定で、BEVDet4Dを7.43% mIoUと3.09% IoUで改善した。
関連論文リスト
- GeoSurDepth: Spatial Geometry-Consistent Self-Supervised Depth Estimation for Surround-View Cameras [3.072321170197384]
GeoSurDepthは、サラウンドビューの深さ推定のための主要なキューとして、幾何整合性を利用するフレームワークである。
筆者らのフレームワークは,頑健な自己教師付き多視点深度推定のための幾何学的コヒーレンスと一貫性を活用することの重要性を強調した。
論文 参考訳(メタデータ) (2026-01-09T15:13:28Z) - SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation [63.48859753472547]
SpaceActorは、意味論と幾何学を明確に分離する堅牢なロボット操作のためのフレームワークである。
RLBenchの87.4%で最先端のパフォーマンスを達成し、ノイズの異なる条件下では13.9%から19.4%改善している。
論文 参考訳(メタデータ) (2025-11-12T18:59:08Z) - HD$^2$-SSC: High-Dimension High-Density Semantic Scene Completion for Autonomous Driving [52.959716866316604]
カメラベースの3Dセマンティックシーン補完(SSC)は、自動運転において重要な役割を果たす。
既存のSSC法は、固有の入出力次元ギャップとアノテーション-現実密度ギャップに悩まされている。
本稿では,画素セマンティクスを拡張した高次元高密度セマンティックシーンコンプリートフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T07:24:35Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - DepthSSC: Monocular 3D Semantic Scene Completion via Depth-Spatial Alignment and Voxel Adaptation [2.949710700293865]
単眼カメラのみを用いたセマンティックシーン補完手法DepthSSCを提案する。
DepthSSCがGeometric-Aware Voxelization (GAV)とSpatial Transformation Graph Fusion (ST-GF)モジュールを統合
DepthSSCは複雑な3次元構造を効果的に捉え、最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-11-28T01:47:51Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - Geometry-Aware Network for Domain Adaptive Semantic Segmentation [64.00345743710653]
本稿では,ドメイン間のギャップを小さくするために,ドメイン適応のための幾何学的ネットワーク(GANDA)を提案する。
我々は、RGB-D画像から生成された点雲上の3Dトポロジを利用して、対象領域における座標色歪みと擬似ラベルの微細化を行う。
我々のモデルは,GTA5->CityscapesとSynTHIA->Cityscapesの最先端技術より優れている。
論文 参考訳(メタデータ) (2022-12-02T00:48:44Z) - On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation [56.97699793236174]
本論文では,2種類の堅牢なクロスビュー整合性について検討する。
深度特徴空間と3次元ボクセル空間の時間的コヒーレンスを自己教師付き単眼深度推定に利用した。
いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2022-09-19T03:46:13Z) - MonoJSG: Joint Semantic and Geometric Cost Volume for Monocular 3D
Object Detection [10.377424252002792]
モノクル3D物体検出は正確な深度回復能力に欠ける。
ディープニューラルネットワーク(DNN)は、高レベルの学習機能からモノクルディープセンシングを可能にする。
深度誤差をモデル化するための共同意味量と幾何学的コスト容積を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。