論文の概要: SliceSemOcc: Vertical Slice Based Multimodal 3D Semantic Occupancy Representation
- arxiv url: http://arxiv.org/abs/2509.03999v1
- Date: Thu, 04 Sep 2025 08:27:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.100663
- Title: SliceSemOcc: Vertical Slice Based Multimodal 3D Semantic Occupancy Representation
- Title(参考訳): SliceSemOcc: 垂直スライスに基づくマルチモーダル3次元セマンティックアクセプタシー表現
- Authors: Han Huang, Han Sun, Ningzhong Liu, Huiyu Zhou, Jiaquan Shen,
- Abstract要約: SliceSemOccは3Dセマンティック占有表現のための新しい垂直スライスベースのマルチモーダルフレームワークである。
平均プーリングにより高分解能を保ち,各高さ層に動的チャネルアテンション重みを割り当てるSE3Dモジュールを提案する。
- 参考スコア(独自算出の注目度): 26.38332949554491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Driven by autonomous driving's demands for precise 3D perception, 3D semantic occupancy prediction has become a pivotal research topic. Unlike bird's-eye-view (BEV) methods, which restrict scene representation to a 2D plane, occupancy prediction leverages a complete 3D voxel grid to model spatial structures in all dimensions, thereby capturing semantic variations along the vertical axis. However, most existing approaches overlook height-axis information when processing voxel features. And conventional SENet-style channel attention assigns uniform weight across all height layers, limiting their ability to emphasize features at different heights. To address these limitations, we propose SliceSemOcc, a novel vertical slice based multimodal framework for 3D semantic occupancy representation. Specifically, we extract voxel features along the height-axis using both global and local vertical slices. Then, a global local fusion module adaptively reconciles fine-grained spatial details with holistic contextual information. Furthermore, we propose the SEAttention3D module, which preserves height-wise resolution through average pooling and assigns dynamic channel attention weights to each height layer. Extensive experiments on nuScenes-SurroundOcc and nuScenes-OpenOccupancy datasets verify that our method significantly enhances mean IoU, achieving especially pronounced gains on most small-object categories. Detailed ablation studies further validate the effectiveness of the proposed SliceSemOcc framework.
- Abstract(参考訳): 正確な3D知覚に対する自律運転の要求により、3Dセマンティック占有率予測は重要な研究トピックとなっている。
シーン表現を2次元平面に制限する鳥眼ビュー(BEV)法とは異なり、占有予測は全次元の空間構造をモデル化するために完全な3次元ボクセル格子を利用する。
しかし、既存のほとんどのアプローチは、ボクセルの特徴を処理する際に、高さ軸情報を見落としている。
従来のSENetスタイルのチャネルアテンションは、すべての高さ層に均一なウェイトを割り当て、異なる高さで特徴を強調する能力を制限する。
これらの制約に対処するために,SliceSemOccを提案する。SliceSemOccは3次元セマンティック占有表現のための,垂直スライスに基づく新しいマルチモーダルフレームワークである。
具体的には、グローバルスライスとローカルスライスの両方を用いて、高さ軸に沿ったボクセルの特徴を抽出する。
そして、大域的局所融合モジュールは、細粒度空間の詳細と全体的文脈情報とを適応的に調整する。
また,SEAttention3Dモジュールを提案する。これは平均プーリングによる高次分解能を保ち,各高さ層に動的チャネルアテンション重みを割り当てる。
nuScenes-SurroundOcc および nuScenes-OpenOccupancy データセットの大規模な実験により,本手法が平均IoUを著しく向上させ,特に小対象カテゴリにおいて顕著な利得を達成できることを確認した。
詳細なアブレーション研究は、提案されたSliceSemOccフレームワークの有効性をさらに検証している。
関連論文リスト
- DGOcc: Depth-aware Global Query-based Network for Monocular 3D Occupancy Prediction [17.38916914453357]
2次元画像から大規模屋外シーンの3次元占有を予測することは、不適切で資源集約的である。
モノクロ3DのtextbfOccupancy 予測のための textbfGlobal クエリベースのネットワーク textbfDGOcc を提案する。
提案手法は,GPUと時間オーバーヘッドを低減しつつ,単分子的セマンティック占有率予測における最高の性能を実現する。
論文 参考訳(メタデータ) (2025-04-10T07:44:55Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - SliceOcc: Indoor 3D Semantic Occupancy Prediction with Vertical Slice Representation [50.420711084672966]
室内3Dセマンティック占有予測に適したRGBカメラベースモデルであるSliceOccを提案する。
EmbodiedScanデータセットの実験結果は、SliceOccが81の屋内カテゴリで15.45%のmIoUを達成したことを示している。
論文 参考訳(メタデータ) (2025-01-28T03:41:24Z) - Camera-based 3D Semantic Scene Completion with Sparse Guidance Network [18.415854443539786]
本稿では,SGNと呼ばれるカメラベースのセマンティックシーン補完フレームワークを提案する。
SGNは空間幾何学的手がかりに基づいてセマンティック・アウェア・シード・ボクセルからシーン全体へのセマンティクスの伝播を行う。
実験の結果,既存の最先端手法よりもSGNの方が優れていることが示された。
論文 参考訳(メタデータ) (2023-12-10T04:17:27Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z) - OccuSeg: Occupancy-aware 3D Instance Segmentation [39.71517989569514]
3D占有サイズ」とは、各インスタンスが占有するボクセルの数である。
OccuSegは、3Dインスタンスのセグメンテーションスキームである。
3つの実世界のデータセット上での“最先端のパフォーマンス”。
論文 参考訳(メタデータ) (2020-03-14T02:48:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。