論文の概要: VOIC: Visible-Occluded Decoupling for Monocular 3D Semantic Scene Completion
- arxiv url: http://arxiv.org/abs/2512.18954v1
- Date: Mon, 22 Dec 2025 02:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.575111
- Title: VOIC: Visible-Occluded Decoupling for Monocular 3D Semantic Scene Completion
- Title(参考訳): VOIC:モノクローナルな3Dセマンティックシーンコンプリートのための可視分解デカップリング
- Authors: Zaidao Han, Risa Higashita, Jiang Liu,
- Abstract要約: カメラベースのセマンティックシーンコンプリートは、自律走行とロボットシーン理解にとって重要なタスクである。
既存の方法は、通常、エンドツーエンドの2D-to-3D機能リフトとボクセル補完に焦点を当てている。
本稿では,SSCを視覚領域の意味認識と隠蔽領域のシーン補完に明示的に分離する新しいデュアルデコーダフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.144392125326462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera-based 3D Semantic Scene Completion (SSC) is a critical task for autonomous driving and robotic scene understanding. It aims to infer a complete 3D volumetric representation of both semantics and geometry from a single image. Existing methods typically focus on end-to-end 2D-to-3D feature lifting and voxel completion. However, they often overlook the interference between high-confidence visible-region perception and low-confidence occluded-region reasoning caused by single-image input, which can lead to feature dilution and error propagation. To address these challenges, we introduce an offline Visible Region Label Extraction (VRLE) strategy that explicitly separates and extracts voxel-level supervision for visible regions from dense 3D ground truth. This strategy purifies the supervisory space for two complementary sub-tasks: visible-region perception and occluded-region reasoning. Building on this idea, we propose the Visible-Occluded Interactive Completion Network (VOIC), a novel dual-decoder framework that explicitly decouples SSC into visible-region semantic perception and occluded-region scene completion. VOIC first constructs a base 3D voxel representation by fusing image features with depth-derived occupancy. The visible decoder focuses on generating high-fidelity geometric and semantic priors, while the occlusion decoder leverages these priors together with cross-modal interaction to perform coherent global scene reasoning. Extensive experiments on the SemanticKITTI and SSCBench-KITTI360 benchmarks demonstrate that VOIC outperforms existing monocular SSC methods in both geometric completion and semantic segmentation accuracy, achieving state-of-the-art performance.
- Abstract(参考訳): カメラベースの3Dセマンティックシーンコンプリート(SSC)は、自律走行とロボットシーン理解にとって重要なタスクである。
単一の画像から意味論と幾何学の両方の完全な3次元容積表現を推論することを目的としている。
既存の方法は、通常、エンドツーエンドの2D-to-3D機能リフトとボクセル補完に焦点を当てている。
しかし、高信頼の可視領域認識と単一画像入力による低信頼の隠蔽領域推論との干渉をしばしば見落とし、特徴の希釈と誤りの伝播につながる。
これらの課題に対処するために,我々は,高密度な3次元地上真実から,視覚的領域に対するボクセルレベルの監督を明示的に分離し,抽出する,オフライン可視領域ラベル抽出(VRLE)戦略を導入する。
この戦略は、視覚領域認識と閉鎖領域推論という2つの補完的なサブタスクに対する監督空間を浄化する。
このアイデアに基づいて,SSCを視覚領域のセマンティック認識と隠蔽領域のシーン補完に明示的に分離する,新しいデュアルデコーダフレームワークである Visible-Occluded Interactive Completion Network (VOIC) を提案する。
VOICは、画像特徴と深度由来の占有を融合させることにより、まずベース3Dボクセル表現を構築する。
可視デコーダは、高忠実度な幾何学的および意味的な先行情報を生成することに焦点を当て、オクルージョンデコーダは、これらの先行情報と、相互モーダルな相互作用を利用して、コヒーレントなグローバルなシーン推論を行う。
SemanticKITTI と SSCBench-KITTI360 ベンチマークの大規模な実験により、VOIC は幾何学的完備化とセマンティックセグメンテーションの精度の両方で既存のモノクリック SSC 法より優れ、最先端の性能を実現していることが示された。
関連論文リスト
- Robust Mesh Saliency GT Acquisition in VR via View Cone Sampling and Geometric Smoothing [59.12032628787018]
バーチャルリアリティー(VR)における人中心視覚モデリングには3次元メッシュサリエンシ基底真理が不可欠である
現在のVRアイトラッキングパイプラインは、単一線サンプリングとユークリッドのスムース化に依存しており、テクスチャの注意を喚起し、ギャップをまたいだ信号の漏洩を引き起こす。
本稿では,これらの制約に対処する頑健な枠組みを提案する。
論文 参考訳(メタデータ) (2026-01-06T05:20:12Z) - HD$^2$-SSC: High-Dimension High-Density Semantic Scene Completion for Autonomous Driving [52.959716866316604]
カメラベースの3Dセマンティックシーン補完(SSC)は、自動運転において重要な役割を果たす。
既存のSSC法は、固有の入出力次元ギャップとアノテーション-現実密度ギャップに悩まされている。
本稿では,画素セマンティクスを拡張した高次元高密度セマンティックシーンコンプリートフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T07:24:35Z) - SPHERE: Semantic-PHysical Engaged REpresentation for 3D Semantic Scene Completion [52.959716866316604]
カメラベース3Dセマンティックシーンコンプリート(SSC)は自動運転システムにおいて重要な課題である。
本稿では,SPHERE (Semantic-PHysical Engaged Representation) を提案する。
SPHEREは、意味情報と物理的情報の共同利用のためのボクセルとガウス表現を統合している。
論文 参考訳(メタデータ) (2025-09-14T09:07:41Z) - VisHall3D: Monocular Semantic Scene Completion from Reconstructing the Visible Regions to Hallucinating the Invisible Regions [8.379218197127216]
VisHall3Dは、シーン完了タスクを、可視領域(ビジョン)の再構築と見えない領域(幻覚)の推測の2段階に分解する
VisHall3Dは最先端のパフォーマンスを達成し、従来の手法よりも大幅に向上した。
論文 参考訳(メタデータ) (2025-07-25T11:57:18Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - CA-W3D: Leveraging Context-Aware Knowledge for Weakly Supervised Monocular 3D Detection [5.881158575425763]
本稿では,この制限を2段階の訓練パラダイムで解決するために,単眼3次元物体検出のためのコンテキスト認識弱スーパービジョン(CA-W3D)を提案する。
具体的には、まず、トレーニング可能なモノクロ3Dエンコーダと凍結したオープンボキャブラリ2D視覚接地モデルから得られた地域オブジェクトの埋め込みを整列するROCM(Regional-wise Object Contrastive Matching)を用いた事前学習ステージを導入する。
第2段階では、文脈先行を効果的に伝達するD2OD(Dual-to-One Distillation)機構を備えた擬似ラベルトレーニングプロセスを導入する。
論文 参考訳(メタデータ) (2025-03-06T07:02:13Z) - Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。
我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文 参考訳(メタデータ) (2024-09-29T10:46:19Z) - DepthSSC: Monocular 3D Semantic Scene Completion via Depth-Spatial Alignment and Voxel Adaptation [2.949710700293865]
単眼カメラのみを用いたセマンティックシーン補完手法DepthSSCを提案する。
DepthSSCがGeometric-Aware Voxelization (GAV)とSpatial Transformation Graph Fusion (ST-GF)モジュールを統合
DepthSSCは複雑な3次元構造を効果的に捉え、最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-11-28T01:47:51Z) - Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion [45.171150395915056]
3Dセマンティックシーン補完(SSC)は、限られた観測から密集した3Dシーンを推定する必要がある不適切な認識課題である。
従来のカメラベースの手法は、固有の幾何学的曖昧さと不完全な観察のため、正確なセマンティックシーンを予測するのに苦労した。
我々は,SSCにおけるステレオマッチング技術と鳥眼ビュー(BEV)表現学習を利用して,そのような問題に対処する。
論文 参考訳(メタデータ) (2023-03-24T12:33:44Z) - Semantic Scene Completion with Cleaner Self [93.99441599791275]
セマンティックシーンコンプリート(SSC)は、単一のビュー深さと/またはRGB 2Dピクセルの画像を3Dボクセルに変換し、それぞれのセマンティックラベルが予測される。
SSCは、予測モデルが目に見える表面の背後にあるものを「想像する」必要があるため、よく知られた偽装問題であり、通常はTrncated Signed Distance Function (TSDF) によって表される。
我々は3Dボクセルを用いて、TSDF-CADと呼ばれる完全な可視表面を生成し、次に「クリーン」なSSCモデルを訓練する。
モデルはノイズフリーなので、期待できる。
論文 参考訳(メタデータ) (2023-03-17T13:50:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。