論文の概要: Unleashing Semantic and Geometric Priors for 3D Scene Completion
- arxiv url: http://arxiv.org/abs/2508.13601v1
- Date: Tue, 19 Aug 2025 08:10:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.838561
- Title: Unleashing Semantic and Geometric Priors for 3D Scene Completion
- Title(参考訳): 3次元シーンコンプリートにおける意味的・幾何学的優先事項の解き放つ
- Authors: Shiyuan Chen, Wei Sui, Bohao Zhang, Zeyd Boukhers, John See, Cong Yang,
- Abstract要約: カメラベースの3Dセマンティックシーン補完(SSC)は、自律走行とロボットナビゲーションのための密集した幾何学的および意味的知覚を提供する。
既存の手法は、意味的および幾何学的事前情報を提供するために結合エンコーダに依存している。
本稿では、ソースレベルとパスレベルの両方で二重分離を行う新しいフレームワークであるFoundationSSCを提案する。
- 参考スコア(独自算出の注目度): 18.515824341739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera-based 3D semantic scene completion (SSC) provides dense geometric and semantic perception for autonomous driving and robotic navigation. However, existing methods rely on a coupled encoder to deliver both semantic and geometric priors, which forces the model to make a trade-off between conflicting demands and limits its overall performance. To tackle these challenges, we propose FoundationSSC, a novel framework that performs dual decoupling at both the source and pathway levels. At the source level, we introduce a foundation encoder that provides rich semantic feature priors for the semantic branch and high-fidelity stereo cost volumes for the geometric branch. At the pathway level, these priors are refined through specialised, decoupled pathways, yielding superior semantic context and depth distributions. Our dual-decoupling design produces disentangled and refined inputs, which are then utilised by a hybrid view transformation to generate complementary 3D features. Additionally, we introduce a novel Axis-Aware Fusion (AAF) module that addresses the often-overlooked challenge of fusing these features by anisotropically merging them into a unified representation. Extensive experiments demonstrate the advantages of FoundationSSC, achieving simultaneous improvements in both semantic and geometric metrics, surpassing prior bests by +0.23 mIoU and +2.03 IoU on SemanticKITTI. Additionally, we achieve state-of-the-art performance on SSCBench-KITTI-360, with 21.78 mIoU and 48.61 IoU. The code will be released upon acceptance.
- Abstract(参考訳): カメラベースの3Dセマンティックシーン補完(SSC)は、自律走行とロボットナビゲーションのための密集した幾何学的および意味的知覚を提供する。
しかし、既存の手法は、セマンティックと幾何学の両方の優先事項を提供するために結合エンコーダに依存しており、それによってモデルは矛盾する要求と全体的なパフォーマンスのトレードオフを迫られる。
これらの課題に対処するために、ソースレベルとパスレベルの両方で二重分離を行う新しいフレームワークであるFoundationSSCを提案する。
ソースレベルでは、セマンティックブランチの豊富なセマンティック機能と幾何学ブランチの高忠実度ステレオコストボリュームを提供するファンデーションエンコーダを導入する。
経路レベルでは、これらの先行は特殊化され分離された経路によって洗練され、より優れた意味的文脈と深さ分布をもたらす。
我々の二重疎結合設計は、不整合および洗練された入力を生成し、それをハイブリッドビュー変換で利用して相補的な3D特徴を生成する。
さらに,これらの特徴を異方的に融合して統一表現にするという,しばしば見落とされがちな課題に対処する,AAF(Axis-Aware Fusion)モジュールを導入する。
大規模な実験は、セマンティックKITTIで+0.23 mIoU と +2.03 IoU を上回り、セマンティックKITTI のセマンティックと幾何学の両指標を同時に改善することによる FoundationSSC の利点を実証している。
また,SSCBench-KITTI-360では21.78 mIoU,48.61 IoUで最先端性能を実現した。
コードは受理時にリリースされます。
関連論文リスト
- SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets [90.99212668875971]
Step1X-3Dは、データの不足、アルゴリズムの制限、エコシステムの断片化といった課題に対処するオープンフレームワークである。
拡散型テクスチャ合成モジュールとハイブリッドVAE-DiTジオメトリジェネレータを組み合わせた2段階の3Dネイティブアーキテクチャを提案する。
ベンチマークの結果は、既存のオープンソースメソッドを超える最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-05-12T16:56:30Z) - GSFF-SLAM: 3D Semantic Gaussian Splatting SLAM via Feature Field [17.57215792490409]
GSFF-SLAMは3次元ガウススプラッティングに基づく新しい意味論的SLAMシステムである。
提案手法は, 様々な2次元先行情報, 特にスパース信号と雑音信号を用いた意味的再構成を支援する。
2D基底真理を利用する場合、GSFF-SLAMは95.03% mIoUで最先端のセマンティックセグメンテーション性能を達成する。
論文 参考訳(メタデータ) (2025-04-28T01:21:35Z) - MS-Occ: Multi-Stage LiDAR-Camera Fusion for 3D Semantic Occupancy Prediction [15.656771219382076]
MS-Occは、新しいマルチステージLiDARカメラ融合フレームワークである。
これはLiDARの幾何学的忠実度とカメラベースのセマンティックリッチネスを統合する。
実験の結果、MS-Occは連合(IoU)を32.1%、平均IoU(mIoU)を25.3%で割った。
論文 参考訳(メタデータ) (2025-04-22T13:33:26Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglement [8.592248643229675]
運転予測は自律運転(AD)において重要な役割を担っている
既存の手法はしばしば高い計算コストを発生させるが、これはADのリアルタイム要求と矛盾する。
ハイブリッドBEV-Voxel表現を用いた幾何学的意味的デュアルブランチネットワーク(GSDBN)を提案する。
論文 参考訳(メタデータ) (2024-07-18T04:46:13Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。