論文の概要: Multi-Resolution Alignment for Voxel Sparsity in Camera-Based 3D Semantic Scene Completion
- arxiv url: http://arxiv.org/abs/2602.03371v1
- Date: Tue, 03 Feb 2026 10:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.397027
- Title: Multi-Resolution Alignment for Voxel Sparsity in Camera-Based 3D Semantic Scene Completion
- Title(参考訳): カメラによる3次元セマンティック・シーン・コンプリートにおけるVoxel Sparsityの多分解能アライメント
- Authors: Zhiwen Yang, Yuxin Peng,
- Abstract要約: カメラベースの3Dセマンティックシーン補完(SSC)は、周囲の3Dシーンにおける各ボクセルの幾何学的占有度と意味ラベルを画像入力で評価するためのコスト効率の良いソリューションを提供する。
既存の手法は、自律運転シナリオにおけるボクセルの大部分が空であるので、ボクセルの空間性という課題に直面している。
カメラを用いた3Dセマンティックシーン補完におけるボクセル空間の分散を緩和するために,textitMulti-Resolution Alignment (MRA) アプローチを提案する。
- 参考スコア(独自算出の注目度): 52.959716866316604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera-based 3D semantic scene completion (SSC) offers a cost-effective solution for assessing the geometric occupancy and semantic labels of each voxel in the surrounding 3D scene with image inputs, providing a voxel-level scene perception foundation for the perception-prediction-planning autonomous driving systems. Although significant progress has been made in existing methods, their optimization rely solely on the supervision from voxel labels and face the challenge of voxel sparsity as a large portion of voxels in autonomous driving scenarios are empty, which limits both optimization efficiency and model performance. To address this issue, we propose a \textit{Multi-Resolution Alignment (MRA)} approach to mitigate voxel sparsity in camera-based 3D semantic scene completion, which exploits the scene and instance level alignment across multi-resolution 3D features as auxiliary supervision. Specifically, we first propose the Multi-resolution View Transformer module, which projects 2D image features into multi-resolution 3D features and aligns them at the scene level through fusing discriminative seed features. Furthermore, we design the Cubic Semantic Anisotropy module to identify the instance-level semantic significance of each voxel, accounting for the semantic differences of a specific voxel against its neighboring voxels within a cubic area. Finally, we devise a Critical Distribution Alignment module, which selects critical voxels as instance-level anchors with the guidance of cubic semantic anisotropy, and applies a circulated loss for auxiliary supervision on the critical feature distribution consistency across different resolutions. The code is available at https://github.com/PKU-ICST-MIPL/MRA_TIP.
- Abstract(参考訳): カメラベースの3Dセマンティックシーンコンプリート(SSC)は、周囲の3Dシーンにおける各ボクセルの幾何学的占有度とセマンティックラベルを画像入力で評価するためのコスト効率の良いソリューションを提供し、知覚予測計画自律運転システムのためのボクセルレベルのシーン認識基盤を提供する。
従来の手法では大きな進歩があったが、その最適化はボクセルラベルの監督にのみ依存しており、自律運転シナリオにおけるボクセルの大部分が空であり、最適化効率とモデル性能の両方に制限があるため、ボクセルの分散性の課題に直面している。
この問題に対処するために,カメラベースの3Dセマンティックシーン補完におけるボクセル空間の分散を緩和する,<textit{Multi-Resolution Alignment (MRA) アプローチを提案する。
具体的には,まず2次元画像特徴を多解像度3次元特徴に投影し,識別的シード特徴を融合させてシーンレベルで整列させる多分解能ビュートランスフォーマーモジュールを提案する。
さらに,キュービックセマンティックな異方性モジュールを設計し,各ボクセルのインスタンスレベルの意味的意義を同定し,隣接するボクセルと隣接するボクセルとのセマンティックな差異を考慮に入れた。
最後に, 臨界ボクセルをインスタンスレベルのアンカーとして, 立体的意味異方性の誘導により選択する臨界分布アライメントモジュールを考案し, 様々な解像度における臨界特性分布の整合性について, 補助的監督のために循環的損失を適用した。
コードはhttps://github.com/PKU-ICST-MIPL/MRA_TIPで入手できる。
関連論文リスト
- HD$^2$-SSC: High-Dimension High-Density Semantic Scene Completion for Autonomous Driving [52.959716866316604]
カメラベースの3Dセマンティックシーン補完(SSC)は、自動運転において重要な役割を果たす。
既存のSSC法は、固有の入出力次元ギャップとアノテーション-現実密度ギャップに悩まされている。
本稿では,画素セマンティクスを拡張した高次元高密度セマンティックシーンコンプリートフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T07:24:35Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - Camera-based 3D Semantic Scene Completion with Sparse Guidance Network [18.415854443539786]
本稿では,SGNと呼ばれるカメラベースのセマンティックシーン補完フレームワークを提案する。
SGNは空間幾何学的手がかりに基づいてセマンティック・アウェア・シード・ボクセルからシーン全体へのセマンティクスの伝播を行う。
実験の結果,既存の最先端手法よりもSGNの方が優れていることが示された。
論文 参考訳(メタデータ) (2023-12-10T04:17:27Z) - DepthSSC: Monocular 3D Semantic Scene Completion via Depth-Spatial Alignment and Voxel Adaptation [2.949710700293865]
単眼カメラのみを用いたセマンティックシーン補完手法DepthSSCを提案する。
DepthSSCがGeometric-Aware Voxelization (GAV)とSpatial Transformation Graph Fusion (ST-GF)モジュールを統合
DepthSSCは複雑な3次元構造を効果的に捉え、最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-11-28T01:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。