論文の概要: VisHall3D: Monocular Semantic Scene Completion from Reconstructing the Visible Regions to Hallucinating the Invisible Regions
- arxiv url: http://arxiv.org/abs/2507.19188v1
- Date: Fri, 25 Jul 2025 11:57:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.940152
- Title: VisHall3D: Monocular Semantic Scene Completion from Reconstructing the Visible Regions to Hallucinating the Invisible Regions
- Title(参考訳): VisHall3D: 可視領域の再構成から不可視領域の幻覚への単眼的セマンティックシーンの完成
- Authors: Haoang Lu, Yuanqi Su, Xiaoning Zhang, Longjun Gao, Yu Xue, Le Wang,
- Abstract要約: VisHall3Dは、シーン完了タスクを、可視領域(ビジョン)の再構築と見えない領域(幻覚)の推測の2段階に分解する
VisHall3Dは最先端のパフォーマンスを達成し、従来の手法よりも大幅に向上した。
- 参考スコア(独自算出の注目度): 8.379218197127216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces VisHall3D, a novel two-stage framework for monocular semantic scene completion that aims to address the issues of feature entanglement and geometric inconsistency prevalent in existing methods. VisHall3D decomposes the scene completion task into two stages: reconstructing the visible regions (vision) and inferring the invisible regions (hallucination). In the first stage, VisFrontierNet, a visibility-aware projection module, is introduced to accurately trace the visual frontier while preserving fine-grained details. In the second stage, OcclusionMAE, a hallucination network, is employed to generate plausible geometries for the invisible regions using a noise injection mechanism. By decoupling scene completion into these two distinct stages, VisHall3D effectively mitigates feature entanglement and geometric inconsistency, leading to significantly improved reconstruction quality. The effectiveness of VisHall3D is validated through extensive experiments on two challenging benchmarks: SemanticKITTI and SSCBench-KITTI-360. VisHall3D achieves state-of-the-art performance, outperforming previous methods by a significant margin and paves the way for more accurate and reliable scene understanding in autonomous driving and other applications.
- Abstract(参考訳): 本稿では,既存の手法で広く普及している特徴の絡み合いと幾何学的不整合の問題に対処することを目的とした,単眼のセマンティックシーン補完のための新しい2段階フレームワークであるVisHall3Dを紹介する。
VisHall3Dはシーン完了タスクを2つのステージに分解する。
第1段階では、視覚的フロンティアを正確に追跡し、きめ細かい詳細を保存しながら、可視性を考慮したプロジェクションモジュールであるVisFrontierNetが導入された。
第2段階では、幻覚ネットワークであるOcclusionMAEを用いて、ノイズ注入機構を用いて可視領域の可視なジオメトリーを生成する。
シーン完了を2つの異なるステージに分離することで、VisHall3Dは特徴の絡み合いと幾何学的不整合を効果的に緩和し、再構築品質を大幅に改善する。
VisHall3Dの有効性は、SemanticKITTIとSSCBench-KITTI-360の2つの挑戦的なベンチマークで広範な実験によって検証されている。
VisHall3Dは最先端のパフォーマンスを達成し、従来の手法をかなりのマージンで上回り、自動運転やその他のアプリケーションにおけるより正確で信頼性の高いシーン理解の道を開く。
関連論文リスト
- One Step Closer: Creating the Future to Boost Monocular Semantic Scene Completion [3.664655957801223]
現実世界の交通シナリオでは、視覚的な3Dシーンのかなりの部分は、カメラの視野の外側に留まっている。
本稿では、擬似未来フレーム予測を利用して、モデルの有効性を拡大する新しい時間的SSCフレームワークであるCreating the Future SSCを提案する。
提案手法は、ポーズと深さを組み合わせて正確な3次元対応を確立し、3次元空間における過去、現在、予測される将来のフレームの幾何学的に一貫性のある融合を可能にする。
論文 参考訳(メタデータ) (2025-07-18T10:24:58Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - Bridging 3D Anomaly Localization and Repair via High-Quality Continuous Geometric Representation [1.4763103835215192]
新しいフレームワークは、連続的なポーズ不変の形状表現を学習することで、3D異常の検出と修復を統合する。
Real3D-ADとAnomaly-ShapeNetの実験は最先端の性能を示している。
論文 参考訳(メタデータ) (2025-05-30T10:11:49Z) - GSFF-SLAM: 3D Semantic Gaussian Splatting SLAM via Feature Field [17.57215792490409]
GSFF-SLAMは3次元ガウススプラッティングに基づく新しい意味論的SLAMシステムである。
提案手法は, 様々な2次元先行情報, 特にスパース信号と雑音信号を用いた意味的再構成を支援する。
2D基底真理を利用する場合、GSFF-SLAMは95.03% mIoUで最先端のセマンティックセグメンテーション性能を達成する。
論文 参考訳(メタデータ) (2025-04-28T01:21:35Z) - econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - OccScene: Semantic Occupancy-based Cross-task Mutual Learning for 3D Scene Generation [84.32038395034868]
OccSceneは、きめ細かい3D認識と高品質な生成を統一されたフレームワークに統合する。
OccSceneはテキストプロンプトによってのみ、新しい一貫性のある3Dリアルシーンを生成する。
実験により,OccSceneは屋内および屋外の広いシナリオにおいて,リアルな3Dシーン生成を実現することが示された。
論文 参考訳(メタデータ) (2024-12-15T13:26:51Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - Improving Neural Indoor Surface Reconstruction with Mask-Guided Adaptive
Consistency Constraints [0.6749750044497732]
本稿では、ビュー依存色とビュー非依存色を分離する2段階のトレーニングプロセスを提案し、さらに2つの新しい一貫性制約を活用して、余分な事前処理を必要とせず、詳細な再構成性能を向上させる。
合成および実世界のデータセットの実験は、事前推定誤差から干渉を減らす能力を示している。
論文 参考訳(メタデータ) (2023-09-18T13:05:23Z) - Scene-Generalizable Interactive Segmentation of Radiance Fields [64.37093918762]
我々はSGISRF(Scene-Generalizable Interactive in Radiance Fields)の最初の試みを行う。
そこで本研究では,複数視点の2D画像に対して,対話的なユーザクリック数回しか表示されない,新しい(見えない)シーンの3Dオブジェクトセグメンテーションを実現するSGISRF手法を提案する。
多様なシーンをカバーする2つの実世界の挑戦的ベンチマーク実験は,1) 提案手法の有効性とシーン一般化性を示し,2) シーン固有の最適化を必要とする古典的手法と比較して良好な性能を示した。
論文 参考訳(メタデータ) (2023-08-09T17:55:50Z) - Cross-Dimensional Refined Learning for Real-Time 3D Visual Perception
from Monocular Video [2.2299983745857896]
本稿では3次元シーンの幾何学的構造と意味的ラベルを協調的に知覚する新しいリアルタイム能動的学習法を提案する。
本稿では,3次元メッシュと3次元セマンティックラベリングの両方をリアルタイムに抽出する,エンドツーエンドのクロスディメンテーションニューラルネットワーク(CDRNet)を提案する。
論文 参考訳(メタデータ) (2023-03-16T11:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。