論文の概要: Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes
- arxiv url: http://arxiv.org/abs/2602.22667v1
- Date: Thu, 26 Feb 2026 06:37:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.558444
- Title: Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes
- Title(参考訳): 室内場面における単眼開放語彙の出現予測
- Authors: Changqing Zhou, Yueru Luo, Han Zhang, Zeyu Jiang, Changhao Chen,
- Abstract要約: オープン語彙の3D占有は、複雑な屋内環境を理解する必要があるエンボディエージェントにとって不可欠である。
二元的占有率ラベル(占有率対自由度)のみを使用する幾何学的監督パラダイムを提案する。
オープン語彙設定では59.50 IoU と 21.05 mIoU を達成し,既存の IoU の占有法を全て上回り,mIoU の広いマージンで先行したオープン語彙アプローチよりも優れていた。
- 参考スコア(独自算出の注目度): 12.60608820766928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary 3D occupancy is vital for embodied agents, which need to understand complex indoor environments where semantic categories are abundant and evolve beyond fixed taxonomies. While recent work has explored open-vocabulary occupancy in outdoor driving scenarios, such methods transfer poorly indoors, where geometry is denser, layouts are more intricate, and semantics are far more fine-grained. To address these challenges, we adopt a geometry-only supervision paradigm that uses only binary occupancy labels (occupied vs free). Our framework builds upon 3D Language-Embedded Gaussians, which serve as a unified intermediate representation coupling fine-grained 3D geometry with a language-aligned semantic embedding. On the geometry side, we find that existing Gaussian-to-Occupancy operators fail to converge under such weak supervision, and we introduce an opacity-aware, Poisson-based approach that stabilizes volumetric aggregation. On the semantic side, direct alignment between rendered features and open-vocabulary segmentation features suffers from feature mixing; we therefore propose a Progressive Temperature Decay schedule that gradually sharpens opacities during splatting, strengthening Gaussian-language alignment. On Occ-ScanNet, our framework achieves 59.50 IoU and 21.05 mIoU in the open-vocabulary setting, surpassing all existing occupancy methods in IoU and outperforming prior open-vocabulary approaches by a large margin in mIoU. Code will be released at https://github.com/JuIvyy/LegoOcc.
- Abstract(参考訳): オープン・ボキャブラリー 3D の占有はエンボディード・エージェントにとって不可欠であり、セマンティック・カテゴリが豊富で、固定された分類学を超えて進化する複雑な屋内環境を理解する必要がある。
最近の研究は、屋外の運転シナリオにおけるオープン語彙の占有を探求しているが、そのような手法は、幾何がより密度が高く、レイアウトがより複雑であり、セマンティクスははるかに微細である。
これらの課題に対処するために、我々は、バイナリ占有ラベル(占有対自由)のみを使用する幾何学のみの監視パラダイムを採用しています。
我々のフレームワークは3D言語組み込みガウスアンを基盤としており、言語に整合したセマンティック埋め込みと細粒度の3D幾何学を結合した中間表現として機能する。
幾何学的側面から、既存のガウス・ツー・オッカナンシー作用素はそのような弱監督の下で収束せず、ボリューム集約を安定化する不透明なポアソンに基づくアプローチを導入する。
セマンティック側では、描画特徴と開語彙セグメンテーション特徴の直接アライメントは特徴混合に苦しむため、スティング中の不透明度を徐々に鋭くし、ガウス文字アライメントを強化するプログレッシブ温度決定スケジュールを提案する。
Occ-ScanNetでは、オープンボキャブラリ設定で59.50 IoUと21.05 mIoUを達成し、既存のIoUの占有法を全て上回り、mIoUの広いマージンで従来のオープンボキャブラリアプローチより優れている。
コードはhttps://github.com/JuIvyy/LegoOcc.comでリリースされる。
関連論文リスト
- HeRO: Hierarchical 3D Semantic Representation for Pose-aware Object Manipulation [54.325346533275074]
HeROは、階層的意味論を通して幾何学と意味論を結合する拡散ベースのポリシーである。
様々なテストにおいて、HeROは新しい最先端技術を確立し、Place Dual Shoesの成功率を12.3%改善し、6つの挑戦的なポーズ対応タスクで平均6.5%向上した。
論文 参考訳(メタデータ) (2026-02-21T12:29:10Z) - ProFuse: Efficient Cross-View Context Fusion for Open-Vocabulary 3D Gaussian Splatting [1.1470070927586018]
ProFuseは3Dガウススプラッティングを用いたオープンな3Dシーン理解のための効率的な文脈認識フレームワークである(3DGS)
パイプラインは、直接登録設定内でのクロスビュー一貫性とマスク内凝集を強化する。
ProFuseは1シーンあたり約5分でセマンティックアタッチメントを完了しながら、強力なオープン語彙の3DGS理解を実現する。
論文 参考訳(メタデータ) (2026-01-08T09:20:46Z) - SegSplat: Feed-forward Gaussian Splatting and Open-Set Semantic Segmentation [114.57192386025373]
SegSplatは、高速でフィードフォワードな3D再構成とリッチでオープンなセマンティック理解のギャップを埋めるために設計された、新しいフレームワークである。
この研究は、意味的に認識された3D環境の実践的でオンザフライな生成に向けた重要なステップである。
論文 参考訳(メタデータ) (2025-11-23T10:26:38Z) - OpenGS-Fusion: Open-Vocabulary Dense Mapping with Hybrid 3D Gaussian Splatting for Refined Object-Level Understanding [17.524454394142477]
提案するOpenGS-Fusionは、セマンティックモデリングを改善し、オブジェクトレベルの理解を洗練させる革新的なオープン語彙密集型マッピングフレームワークである。
また,MLLM-Assisted Adaptive Thresholding という新しい多モーダル言語誘導手法を導入し,類似度閾値を適応的に調整することで3次元オブジェクトのセグメンテーションを改良する。
提案手法は,3次元オブジェクト理解とシーン再構築の品質において,既存の手法よりも優れており,言語誘導シーンインタラクションにおけるその効果を示している。
論文 参考訳(メタデータ) (2025-08-02T02:22:36Z) - PGOV3D: Open-Vocabulary 3D Semantic Segmentation with Partial-to-Global Curriculum [20.206273757144547]
PGOV3Dはオープンな3Dセマンティックセマンティックセグメンテーションを改善するための部分言語カリキュラムを導入した新しいフレームワークである。
我々は、密接な意味情報を提供する部分的なシーンでモデルを事前訓練するが、比較的単純な幾何学である。
第2段階では、よりスペーサーで構造的に複雑である、完全なシーンレベルの点雲上でモデルを微調整する。
論文 参考訳(メタデータ) (2025-06-30T08:13:07Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z) - GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。
GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-01T05:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。