論文の概要: SPHERE: Semantic-PHysical Engaged REpresentation for 3D Semantic Scene Completion
- arxiv url: http://arxiv.org/abs/2509.11171v1
- Date: Sun, 14 Sep 2025 09:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.96022
- Title: SPHERE: Semantic-PHysical Engaged REpresentation for 3D Semantic Scene Completion
- Title(参考訳): SPHERE:3次元セマンティックシーンコンプリートのためのセマンティック・フォイシカルエンゲージメント表現
- Authors: Zhiwen Yang, Yuxin Peng,
- Abstract要約: カメラベース3Dセマンティックシーンコンプリート(SSC)は自動運転システムにおいて重要な課題である。
本稿では,SPHERE (Semantic-PHysical Engaged Representation) を提案する。
SPHEREは、意味情報と物理的情報の共同利用のためのボクセルとガウス表現を統合している。
- 参考スコア(独自算出の注目度): 52.959716866316604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera-based 3D Semantic Scene Completion (SSC) is a critical task in autonomous driving systems, assessing voxel-level geometry and semantics for holistic scene perception. While existing voxel-based and plane-based SSC methods have achieved considerable progress, they struggle to capture physical regularities for realistic geometric details. On the other hand, neural reconstruction methods like NeRF and 3DGS demonstrate superior physical awareness, but suffer from high computational cost and slow convergence when handling large-scale, complex autonomous driving scenes, leading to inferior semantic accuracy. To address these issues, we propose the Semantic-PHysical Engaged REpresentation (SPHERE) for camera-based SSC, which integrates voxel and Gaussian representations for joint exploitation of semantic and physical information. First, the Semantic-guided Gaussian Initialization (SGI) module leverages dual-branch 3D scene representations to locate focal voxels as anchors to guide efficient Gaussian initialization. Then, the Physical-aware Harmonics Enhancement (PHE) module incorporates semantic spherical harmonics to model physical-aware contextual details and promote semantic-geometry consistency through focal distribution alignment, generating SSC results with realistic details. Extensive experiments and analyses on the popular SemanticKITTI and SSCBench-KITTI-360 benchmarks validate the effectiveness of SPHERE. The code is available at https://github.com/PKU-ICST-MIPL/SPHERE_ACMMM2025.
- Abstract(参考訳): カメラベース3Dセマンティックシーンコンプリート(SSC)は、自動走行システムにおいて重要な課題であり、ボクセルレベルの幾何学とセマンティクスを総合的なシーン知覚のために評価する。
既存のボクセルベースのSSC法と平面ベースのSSC法は大きな進歩を遂げているが、現実的な幾何学的詳細のために物理的規則性を捉えるのに苦労している。
一方、NeRFや3DGSのようなニューラルリコンストラクション手法は、身体的認識が優れているが、大規模で複雑な自律運転シーンを扱う場合、計算コストが高く、収束が遅いため、セマンティックな精度が劣る。
これらの課題に対処するため,カメラベースSSCのためのセマンティック・フィジカル・エンガケード・表現(SPHERE)を提案し,ボクセルとガウス表現を統合して意味情報と物理情報の併用を行う。
第一に、セマンティック誘導ガウス初期化(SGI)モジュールは、デュアルブランチの3Dシーン表現を利用して、焦点ボクセルをアンカーとして配置し、効率的なガウス初期化を導く。
次に、PHEモジュールは、物理的に認識された文脈の詳細をモデル化し、焦点分布アライメントを通じて意味的幾何学的一貫性を促進し、現実的な詳細でSSC結果を生成するために、意味的球面調和を組み込む。
人気のあるSemanticKITTIとSSCBench-KITTI-360ベンチマークの広範な実験と分析により、SPHEREの有効性が検証された。
コードはhttps://github.com/PKU-ICST-MIPL/SPHERE_ACMMM2025で公開されている。
関連論文リスト
- GSFF-SLAM: 3D Semantic Gaussian Splatting SLAM via Feature Field [17.57215792490409]
GSFF-SLAMは3次元ガウススプラッティングに基づく新しい意味論的SLAMシステムである。
提案手法は, 様々な2次元先行情報, 特にスパース信号と雑音信号を用いた意味的再構成を支援する。
2D基底真理を利用する場合、GSFF-SLAMは95.03% mIoUで最先端のセマンティックセグメンテーション性能を達成する。
論文 参考訳(メタデータ) (2025-04-28T01:21:35Z) - STAMICS: Splat, Track And Map with Integrated Consistency and Semantics for Dense RGB-D SLAM [8.208389210258593]
本稿では,3次元ガウス表現と意味情報を統合して局所化とマッピングの精度を向上させる新しい手法STAMICSを紹介する。
実験により、STAMICSはカメラのポーズ推定とマップの品質を著しく改善し、再現誤差を低減しつつ、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-03-27T12:10:51Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - Camera-based 3D Semantic Scene Completion with Sparse Guidance Network [18.415854443539786]
本稿では,SGNと呼ばれるカメラベースのセマンティックシーン補完フレームワークを提案する。
SGNは空間幾何学的手がかりに基づいてセマンティック・アウェア・シード・ボクセルからシーン全体へのセマンティクスの伝播を行う。
実験の結果,既存の最先端手法よりもSGNの方が優れていることが示された。
論文 参考訳(メタデータ) (2023-12-10T04:17:27Z) - SSCBench: A Large-Scale 3D Semantic Scene Completion Benchmark for Autonomous Driving [87.8761593366609]
SSCBenchは、広く使用されている自動車データセットのシーンを統合するベンチマークである。
我々は、単眼、三眼、クラウド入力を用いて、性能ギャップを評価するモデルをベンチマークする。
クロスドメインの一般化テストを簡単にするために、さまざまなデータセットにまたがったセマンティックラベルを統一しています。
論文 参考訳(メタデータ) (2023-06-15T09:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。