論文の概要: $M^2$-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs
- arxiv url: http://arxiv.org/abs/2603.09737v1
- Date: Tue, 10 Mar 2026 14:42:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.40072
- Title: $M^2$-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs
- Title(参考訳): M^2$-Occ:不完全なカメラ入力による自律走行のためのレジリエントな3次元セマンティック動作予測
- Authors: Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun Yang,
- Abstract要約: M2$-Occは、ビューが欠けているときに幾何学的構造とセマンティックコヒーレンスを保存するために設計されたフレームワークである。
本稿では,nuScenesをベースとしたSurroundOccベンチマークに,系統的欠落ビュー評価プロトコルを導入する。
M2$-OccでIoUを4.93%改善する。
- 参考スコア(独自算出の注目度): 21.277554919824958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic occupancy prediction enables dense 3D geometric and semantic understanding for autonomous driving. However, existing camera-based approaches implicitly assume complete surround-view observations, an assumption that rarely holds in real-world deployment due to occlusion, hardware malfunction, or communication failures. We study semantic occupancy prediction under incomplete multi-camera inputs and introduce $M^2$-Occ, a framework designed to preserve geometric structure and semantic coherence when views are missing. $M^2$-Occ addresses two complementary challenges. First, a Multi-view Masked Reconstruction (MMR) module leverages the spatial overlap among neighboring cameras to recover missing-view representations directly in the feature space. Second, a Feature Memory Module (FMM) introduces a learnable memory bank that stores class-level semantic prototypes. By retrieving and integrating these global priors, the FMM refines ambiguous voxel features, ensuring semantic consistency even when observational evidence is incomplete. We introduce a systematic missing-view evaluation protocol on the nuScenes-based SurroundOcc benchmark, encompassing both deterministic single-view failures and stochastic multi-view dropout scenarios. Under the safety-critical missing back-view setting, $M^2$-Occ improves the IoU by 4.93%. As the number of missing cameras increases, the robustness gap further widens; for instance, under the setting with five missing views, our method boosts the IoU by 5.01%. These gains are achieved without compromising full-view performance. The source code will be publicly released at https://github.com/qixi7up/M2-Occ.
- Abstract(参考訳): セマンティック占有予測は、自律運転のための密集した3次元幾何学的および意味論的理解を可能にする。
しかし、既存のカメラベースのアプローチでは、完全なサラウンドビューの観察を暗黙的に仮定している。
不完全なマルチカメラ入力下でのセマンティック占有予測について検討し、ビューの欠落時に幾何学的構造とセマンティックコヒーレンスを保存するためのフレームワークであるM^2$-Occを導入する。
M^2$-Occは2つの相補的課題に対処する。
まず,マルチビューマスク付き再構成(MMR)モジュールは,隣接するカメラ間の空間的重なりを利用して,特徴空間内での映像の欠落を再現する。
第2に、FMM(Feature Memory Module)は、クラスレベルのセマンティックプロトタイプを格納する学習可能なメモリバンクを導入する。
これらのグローバルな先行情報を検索して統合することにより、FMMは曖昧なボクセルの特徴を洗練し、観察的証拠が不完全である場合でも意味的な一貫性を確保する。
本稿では,nuScenesをベースとしたSurroundOccベンチマークに,決定論的単一ビュー障害と確率的マルチビュードロップアウトシナリオの両方を包含した,系統的欠落ビュー評価プロトコルを提案する。
M^2$-OccでIoUを4.93%改善する。
カメラの不足が増加するにつれて、ロバストさのギャップはさらに広がり、例えば5つのビューの不足設定の下では、我々の手法はIoUを5.01%向上させる。
これらの利得は、フルビューのパフォーマンスを損なうことなく達成される。
ソースコードはhttps://github.com/qixi7up/M2-Occ.comで公開される。
関連論文リスト
- Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion [73.11061598576798]
カメラによる占有予測は、自動運転における3D知覚の主流のアプローチである。
textbfCIGOccはマルチレベル表現融合に基づく2段階の占有予測フレームワークである。
textbfCIGOccは、入力画像からセグメンテーション、グラフィックス、深さの特徴を抽出し、変形可能なマルチレベル融合機構を導入する。
論文 参考訳(メタデータ) (2025-10-15T06:37:33Z) - MetaOcc: Spatio-Temporal Fusion of Surround-View 4D Radar and Camera for 3D Occupancy Prediction with Dual Training Strategies [12.485905108032146]
本稿では,Omni指向の3次元占有予測のための新しいマルチモーダルフレームワークであるMetaOccを紹介する。
レーダーデータにエンコーダを直接適用することの限界に対処するため,レーダハイト自己保持モジュールを提案する。
高価な点クラウドへの依存を軽減するため,オープンセットセグメンタに基づく擬似ラベル生成パイプラインを提案する。
論文 参考訳(メタデータ) (2025-01-26T03:51:56Z) - NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - MoPA: Multi-Modal Prior Aided Domain Adaptation for 3D Semantic
Segmentation [38.42077782990957]
マルチモーダル・アン教師付きドメイン適応(MM-UDA)は、高価なポイントワイドアノテーションを使わずに自律システムに意味理解を組み込むための実用的なソリューションである。
従来のMM-UDAメソッドは、クラス不均衡な性能に悩まされ、実際のアプリケーションでの利用を制限する。
本稿では,レアオブジェクトの性能向上を目的としたマルチモーダルプライオリティ・エイドド(MoPA)ドメイン適応を提案する。
論文 参考訳(メタデータ) (2023-09-21T07:30:21Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion [45.171150395915056]
3Dセマンティックシーン補完(SSC)は、限られた観測から密集した3Dシーンを推定する必要がある不適切な認識課題である。
従来のカメラベースの手法は、固有の幾何学的曖昧さと不完全な観察のため、正確なセマンティックシーンを予測するのに苦労した。
我々は,SSCにおけるステレオマッチング技術と鳥眼ビュー(BEV)表現学習を利用して,そのような問題に対処する。
論文 参考訳(メタデータ) (2023-03-24T12:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。