論文の概要: SDGOCC: Semantic and Depth-Guided Bird's-Eye View Transformation for 3D Multimodal Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2507.17083v1
- Date: Tue, 22 Jul 2025 23:49:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.806488
- Title: SDGOCC: Semantic and Depth-Guided Bird's-Eye View Transformation for 3D Multimodal Occupancy Prediction
- Title(参考訳): SDGOCC:3次元マルチモーダル作業予測のためのセマンティック・奥行き誘導型鳥の視点変換
- Authors: Zaipeng Duan, Chenxu Dang, Xuzhong Hu, Pei An, Junfeng Ding, Jie Zhan, Yunbiao Xu, Jie Ma,
- Abstract要約: SDG-OCCと呼ばれる新しいマルチモーダル占有予測ネットワークを提案する。
ジョイントセマンティックとディープ誘導ビュー変換と、融合により占有されるアクティブ蒸留が組み込まれている。
提案手法は,Occ3D-nuScenesデータセットをリアルタイムに処理することで,最先端(SOTA)性能を実現する。
- 参考スコア(独自算出の注目度): 8.723840755505817
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal 3D occupancy prediction has garnered significant attention for its potential in autonomous driving. However, most existing approaches are single-modality: camera-based methods lack depth information, while LiDAR-based methods struggle with occlusions. Current lightweight methods primarily rely on the Lift-Splat-Shoot (LSS) pipeline, which suffers from inaccurate depth estimation and fails to fully exploit the geometric and semantic information of 3D LiDAR points. Therefore, we propose a novel multimodal occupancy prediction network called SDG-OCC, which incorporates a joint semantic and depth-guided view transformation coupled with a fusion-to-occupancy-driven active distillation. The enhanced view transformation constructs accurate depth distributions by integrating pixel semantics and co-point depth through diffusion and bilinear discretization. The fusion-to-occupancy-driven active distillation extracts rich semantic information from multimodal data and selectively transfers knowledge to image features based on LiDAR-identified regions. Finally, for optimal performance, we introduce SDG-Fusion, which uses fusion alone, and SDG-KL, which integrates both fusion and distillation for faster inference. Our method achieves state-of-the-art (SOTA) performance with real-time processing on the Occ3D-nuScenes dataset and shows comparable performance on the more challenging SurroundOcc-nuScenes dataset, demonstrating its effectiveness and robustness. The code will be released at https://github.com/DzpLab/SDGOCC.
- Abstract(参考訳): マルチモーダルな3D占有率予測は、自動運転の可能性に大きな注目を集めている。
しかし、既存のアプローチのほとんどは単一モダリティであり、カメラベースの手法は深度情報を欠いているが、LiDARベースの手法は隠蔽に苦慮している。
現在の軽量な手法は主に、不正確な深さ推定に苦しむLift-Splat-Shoot (LSS)パイプラインに依存しており、3D LiDARポイントの幾何学的および意味的な情報を十分に活用できない。
そこで我々はSDG-OCCと呼ばれる新しい多モード占有予測ネットワークを提案する。
拡張ビュー変換は、拡散と双線形離散化を通じて画素意味とコポイント深度を統合することによって正確な深度分布を構築する。
核融合駆動型アクティブ蒸留は多モーダルデータから豊かな意味情報を抽出し,LiDAR特定領域に基づく画像特徴に知識を選択的に伝達する。
最後に,核融合のみを用いるSDG-Fusionと,核融合と蒸留を併用して高速な推論を行うSDG-KLを導入する。
提案手法は,Occ3D-nuScenesデータセット上でのリアルタイム処理により最先端(SOTA)性能を実現し,より困難なSurroundOcc-nuScenesデータセット上で同等の性能を示し,その有効性と堅牢性を示す。
コードはhttps://github.com/DzpLab/SDGOCCで公開される。
関連論文リスト
- TACOcc:Target-Adaptive Cross-Modal Fusion with Volume Rendering for 3D Semantic Occupancy [14.075911467687789]
本稿では,3次元意味的占有予測のためのターゲットスケール適応対称検索機構を提案する。
大規模なターゲットのために地区を拡張し、コンテキスト認識を強化し、小さなターゲットのためにそれを縮小し、効率を改善し、騒音を抑える。
本稿では,3次元意味的占有予測のための適応型マルチモーダル融合フレームワークTACOccを提案する。
論文 参考訳(メタデータ) (2025-05-19T04:32:36Z) - econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - GSPR: Multimodal Place Recognition Using 3D Gaussian Splatting for Autonomous Driving [9.023864430027333]
我々はGPSRと呼ばれる3次元ガウススプラッティングに基づくマルチモーダル位置認識ネットワークを提案する。
マルチビューRGB画像とLiDAR点雲を時間的に統一されたシーン表現とMultimodal Gaussian Splattingを明示的に組み合わせている。
提案手法は,多視点カメラとLiDARの相補的強度を有効活用し,ソタ位置認識性能を向上し,ソタ位置認識性能を向上する。
論文 参考訳(メタデータ) (2024-10-01T00:43:45Z) - FSMDet: Vision-guided feature diffusion for fully sparse 3D detector [0.8437187555622164]
FSMDet (Fully Sparse Multi-modal Detection) を提案する。
提案手法は,従来のSOTA法に比べて最大5倍効率がよい。
論文 参考訳(メタデータ) (2024-09-11T01:55:45Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - Co-Occ: Coupling Explicit Feature Fusion with Volume Rendering Regularization for Multi-Modal 3D Semantic Occupancy Prediction [10.698054425507475]
このレターは、Co-Occと呼ばれる新しいマルチモーダル、すなわちLiDARカメラ3Dセマンティック占有予測フレームワークを提示する。
特徴空間におけるボリュームレンダリングは、3D LiDARスイープと2D画像の間のギャップを十分に埋めることができる。
論文 参考訳(メタデータ) (2024-04-06T09:01:19Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - OccFusion: Depth Estimation Free Multi-sensor Fusion for 3D Occupancy Prediction [5.285847977231642]
マルチセンサ融合に基づく自律走行システムの3次元占有予測
従来の核融合による3次元占有予測は2次元画像特徴の深度推定に頼っていた。
深度推定自由マルチモーダル融合フレームワークOccFusionを提案する。
論文 参考訳(メタデータ) (2024-03-08T14:07:37Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Dense Voxel Fusion for 3D Object Detection [10.717415797194896]
ボクセル融合 (Voxel Fusion, DVF) は, 多スケール密度ボクセル特徴表現を生成する逐次融合法である。
地上の真理2Dバウンディングボックスラベルを直接トレーニングし、ノイズの多い検出器固有の2D予測を避けます。
提案したマルチモーダルトレーニング戦略は, 誤った2次元予測を用いたトレーニングに比べ, より一般化できることを示す。
論文 参考訳(メタデータ) (2022-03-02T04:51:31Z) - Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文 参考訳(メタデータ) (2021-03-30T16:20:24Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。