論文の概要: VisHall3D: Monocular Semantic Scene Completion from Reconstructing the Visible Regions to Hallucinating the Invisible Regions
- arxiv url: http://arxiv.org/abs/2507.19188v1
- Date: Fri, 25 Jul 2025 11:57:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.940152
- Title: VisHall3D: Monocular Semantic Scene Completion from Reconstructing the Visible Regions to Hallucinating the Invisible Regions
- Title(参考訳): VisHall3D: 可視領域の再構成から不可視領域の幻覚への単眼的セマンティックシーンの完成
- Authors: Haoang Lu, Yuanqi Su, Xiaoning Zhang, Longjun Gao, Yu Xue, Le Wang,
- Abstract要約: VisHall3Dは、シーン完了タスクを、可視領域(ビジョン)の再構築と見えない領域(幻覚)の推測の2段階に分解する
VisHall3Dは最先端のパフォーマンスを達成し、従来の手法よりも大幅に向上した。
- 参考スコア(独自算出の注目度): 8.379218197127216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces VisHall3D, a novel two-stage framework for monocular semantic scene completion that aims to address the issues of feature entanglement and geometric inconsistency prevalent in existing methods. VisHall3D decomposes the scene completion task into two stages: reconstructing the visible regions (vision) and inferring the invisible regions (hallucination). In the first stage, VisFrontierNet, a visibility-aware projection module, is introduced to accurately trace the visual frontier while preserving fine-grained details. In the second stage, OcclusionMAE, a hallucination network, is employed to generate plausible geometries for the invisible regions using a noise injection mechanism. By decoupling scene completion into these two distinct stages, VisHall3D effectively mitigates feature entanglement and geometric inconsistency, leading to significantly improved reconstruction quality. The effectiveness of VisHall3D is validated through extensive experiments on two challenging benchmarks: SemanticKITTI and SSCBench-KITTI-360. VisHall3D achieves state-of-the-art performance, outperforming previous methods by a significant margin and paves the way for more accurate and reliable scene understanding in autonomous driving and other applications.
- Abstract(参考訳): 本稿では,既存の手法で広く普及している特徴の絡み合いと幾何学的不整合の問題に対処することを目的とした,単眼のセマンティックシーン補完のための新しい2段階フレームワークであるVisHall3Dを紹介する。
VisHall3Dはシーン完了タスクを2つのステージに分解する。
第1段階では、視覚的フロンティアを正確に追跡し、きめ細かい詳細を保存しながら、可視性を考慮したプロジェクションモジュールであるVisFrontierNetが導入された。
第2段階では、幻覚ネットワークであるOcclusionMAEを用いて、ノイズ注入機構を用いて可視領域の可視なジオメトリーを生成する。
シーン完了を2つの異なるステージに分離することで、VisHall3Dは特徴の絡み合いと幾何学的不整合を効果的に緩和し、再構築品質を大幅に改善する。
VisHall3Dの有効性は、SemanticKITTIとSSCBench-KITTI-360の2つの挑戦的なベンチマークで広範な実験によって検証されている。
VisHall3Dは最先端のパフォーマンスを達成し、従来の手法をかなりのマージンで上回り、自動運転やその他のアプリケーションにおけるより正確で信頼性の高いシーン理解の道を開く。
関連論文リスト
- VOIC: Visible-Occluded Decoupling for Monocular 3D Semantic Scene Completion [6.144392125326462]
カメラベースのセマンティックシーンコンプリートは、自律走行とロボットシーン理解にとって重要なタスクである。
既存の方法は、通常、エンドツーエンドの2D-to-3D機能リフトとボクセル補完に焦点を当てている。
本稿では,SSCを視覚領域の意味認識と隠蔽領域のシーン補完に明示的に分離する新しいデュアルデコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-22T02:05:45Z) - HD$^2$-SSC: High-Dimension High-Density Semantic Scene Completion for Autonomous Driving [52.959716866316604]
カメラベースの3Dセマンティックシーン補完(SSC)は、自動運転において重要な役割を果たす。
既存のSSC法は、固有の入出力次元ギャップとアノテーション-現実密度ギャップに悩まされている。
本稿では,画素セマンティクスを拡張した高次元高密度セマンティックシーンコンプリートフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T07:24:35Z) - Where, Not What: Compelling Video LLMs to Learn Geometric Causality for 3D-Grounding [0.8883733362171032]
この問題に対処するために,What-Where Representation Re-Forming (W2R2) と呼ばれる新しいトレーニングフレームワークを提案する。
提案手法は,2次元特徴を「何」識別のための意味的ビーコン,3次元特徴を「Where」ローカライゼーションのための空間的アンカーとして指定することにより,モデルの内部空間を根本的に改善する。
ScanReferとScanQAで行った実験では、W2R2の有効性が示され、ローカライゼーションの精度とロバスト性が大きく向上した。
論文 参考訳(メタデータ) (2025-10-19T22:40:18Z) - G4Splat: Geometry-Guided Gaussian Splatting with Generative Prior [53.762256749551284]
我々は,3次元シーン再構成を効果的に活用するための基本的な前提条件として,正確な幾何学を同定する。
生成パイプライン全体にこの幾何学的ガイダンスを導入し、可視性マスク推定を改善し、新しいビュー選択をガイドし、ビデオ拡散モデルに着色した場合の多視点一貫性を向上させる。
本手法は,屋内および屋外の両方のシナリオにおいて,高い一般化性を有するシングルビュー入力とアンポーズ映像を自然にサポートする。
論文 参考訳(メタデータ) (2025-10-14T03:06:28Z) - One Step Closer: Creating the Future to Boost Monocular Semantic Scene Completion [3.664655957801223]
現実世界の交通シナリオでは、視覚的な3Dシーンのかなりの部分は、カメラの視野の外側に留まっている。
本稿では、擬似未来フレーム予測を利用して、モデルの有効性を拡大する新しい時間的SSCフレームワークであるCreating the Future SSCを提案する。
提案手法は、ポーズと深さを組み合わせて正確な3次元対応を確立し、3次元空間における過去、現在、予測される将来のフレームの幾何学的に一貫性のある融合を可能にする。
論文 参考訳(メタデータ) (2025-07-18T10:24:58Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - Bridging 3D Anomaly Localization and Repair via High-Quality Continuous Geometric Representation [1.4763103835215192]
新しいフレームワークは、連続的なポーズ不変の形状表現を学習することで、3D異常の検出と修復を統合する。
Real3D-ADとAnomaly-ShapeNetの実験は最先端の性能を示している。
論文 参考訳(メタデータ) (2025-05-30T10:11:49Z) - GSFF-SLAM: 3D Semantic Gaussian Splatting SLAM via Feature Field [17.57215792490409]
GSFF-SLAMは3次元ガウススプラッティングに基づく新しい意味論的SLAMシステムである。
提案手法は, 様々な2次元先行情報, 特にスパース信号と雑音信号を用いた意味的再構成を支援する。
2D基底真理を利用する場合、GSFF-SLAMは95.03% mIoUで最先端のセマンティックセグメンテーション性能を達成する。
論文 参考訳(メタデータ) (2025-04-28T01:21:35Z) - econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - OccScene: Semantic Occupancy-based Cross-task Mutual Learning for 3D Scene Generation [84.32038395034868]
OccSceneは、きめ細かい3D認識と高品質な生成を統一されたフレームワークに統合する。
OccSceneはテキストプロンプトによってのみ、新しい一貫性のある3Dリアルシーンを生成する。
実験により,OccSceneは屋内および屋外の広いシナリオにおいて,リアルな3Dシーン生成を実現することが示された。
論文 参考訳(メタデータ) (2024-12-15T13:26:51Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - Improving Neural Indoor Surface Reconstruction with Mask-Guided Adaptive
Consistency Constraints [0.6749750044497732]
本稿では、ビュー依存色とビュー非依存色を分離する2段階のトレーニングプロセスを提案し、さらに2つの新しい一貫性制約を活用して、余分な事前処理を必要とせず、詳細な再構成性能を向上させる。
合成および実世界のデータセットの実験は、事前推定誤差から干渉を減らす能力を示している。
論文 参考訳(メタデータ) (2023-09-18T13:05:23Z) - Scene-Generalizable Interactive Segmentation of Radiance Fields [64.37093918762]
我々はSGISRF(Scene-Generalizable Interactive in Radiance Fields)の最初の試みを行う。
そこで本研究では,複数視点の2D画像に対して,対話的なユーザクリック数回しか表示されない,新しい(見えない)シーンの3Dオブジェクトセグメンテーションを実現するSGISRF手法を提案する。
多様なシーンをカバーする2つの実世界の挑戦的ベンチマーク実験は,1) 提案手法の有効性とシーン一般化性を示し,2) シーン固有の最適化を必要とする古典的手法と比較して良好な性能を示した。
論文 参考訳(メタデータ) (2023-08-09T17:55:50Z) - Cross-Dimensional Refined Learning for Real-Time 3D Visual Perception
from Monocular Video [2.2299983745857896]
本稿では3次元シーンの幾何学的構造と意味的ラベルを協調的に知覚する新しいリアルタイム能動的学習法を提案する。
本稿では,3次元メッシュと3次元セマンティックラベリングの両方をリアルタイムに抽出する,エンドツーエンドのクロスディメンテーションニューラルネットワーク(CDRNet)を提案する。
論文 参考訳(メタデータ) (2023-03-16T11:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。