論文の概要: GeoGuide: Hierarchical Geometric Guidance for Open-Vocabulary 3D Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2603.26260v1
- Date: Fri, 27 Mar 2026 10:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.447981
- Title: GeoGuide: Hierarchical Geometric Guidance for Open-Vocabulary 3D Semantic Segmentation
- Title(参考訳): GeoGuide: オープンボキャブラリ3次元セマンティックセグメンテーションのための階層的幾何学的ガイダンス
- Authors: Xujing Tao, Chuxin Wang, Yubo Ai, Zhixin Cheng, Zhuoyuan Li, Liangsheng Liu, Yujia Chen, Xinjun Li, Qiao Li, Wenfei Yang, Tianzhu Zhang,
- Abstract要約: オープンな3次元セグメンテーションのための階層的幾何-セマンティック整合性を統合するフレームワークであるGeoGuideを提案する。
具体的には,不確実性に基づくスーパーポイント蒸留モジュールを導入し,幾何学的特徴と意味的特徴を融合させる。
ScanNet v2、Matterport3D、nuScenesに関する実験は、GeoGuideの優れた性能を示している。
- 参考スコア(独自算出の注目度): 38.12499404546835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary 3D semantic segmentation aims to segment arbitrary categories beyond the training set. Existing methods predominantly rely on distilling knowledge from 2D open-vocabulary models. However, aligning 3D features to the 2D representation space restricts intrinsic 3D geometric learning and inherits errors from 2D predictions. To address these limitations, we propose GeoGuide, a novel framework that leverages pretrained 3D models to integrate hierarchical geometry-semantic consistency for open-vocabulary 3D segmentation. Specifically, we introduce an Uncertainty-based Superpoint Distillation module to fuse geometric and semantic features for estimating per-point uncertainty, adaptively weighting 2D features within superpoints to suppress noise while preserving discriminative information to enhance local semantic consistency. Furthermore, our Instance-level Mask Reconstruction module leverages geometric priors to enforce semantic consistency within instances by reconstructing complete instance masks. Additionally, our Inter-Instance Relation Consistency module aligns geometric and semantic similarity matrices to calibrate cross-instance consistency for same-category objects, mitigating viewpoint-induced semantic drift. Extensive experiments on ScanNet v2, Matterport3D, and nuScenes demonstrate the superior performance of GeoGuide.
- Abstract(参考訳): オープン語彙の3Dセマンティックセグメンテーションは、トレーニングセットを超えて任意のカテゴリをセグメンテーションすることを目的としている。
既存の方法は、主に2次元オープン語彙モデルからの知識の蒸留に依存している。
しかし、3次元特徴を2次元表現空間に整列させることは、固有の幾何学的学習を制限し、2次元予測から誤りを継承する。
これらの制約に対処するために, 事前学習した3次元モデルを利用して, 開語彙的3次元セグメンテーションのための階層的幾何学的セグメンテーションを統合する新しいフレームワークGeoGuideを提案する。
具体的には、不確実性に基づくスーパーポイント蒸留モジュールを導入し、幾何的および意味的特徴を融合させ、ポイントごとの不確実性を推定し、スーパーポイント内の2次元特徴を適応的に重み付けし、ノイズを抑えながら識別情報を保存し、局所的なセマンティック一貫性を高める。
さらに、私たちのインスタンスレベルのマスク再構成モジュールは、幾何学的な事前情報を利用して、完全なインスタンスマスクを再構築することで、インスタンス内のセマンティック一貫性を強制します。
さらに、我々のインスタンス間関係整合性モジュールは、幾何学的および意味的類似性行列を整列し、同一カテゴリオブジェクトに対するクロスインスタンス一貫性を校正し、視点による意味的ドリフトを緩和する。
ScanNet v2、Matterport3D、nuScenesの大規模な実験はGeoGuideの優れた性能を示している。
関連論文リスト
- Hierarchical Collaborative Fusion for 3D Instance-aware Referring Expression Segmentation [91.2768117730855]
一般化された3D参照式(3D-GRES)は、記述が複数またはゼロのターゲットと一致する場合でも、自然言語に基づいて3Dシーン内のオブジェクトをローカライズする。
既存の方法はスパース・ポイント・クラウドにのみ依存しており、きめ細かい説明のためのリッチ・ビジュアル・セマンティクスが欠如している。
HCF-RESは2つの重要なイノベーションを持つマルチモーダルフレームワークである。
論文 参考訳(メタデータ) (2026-03-06T13:09:29Z) - Task-Aware 3D Affordance Segmentation via 2D Guidance and Geometric Refinement [12.260126771415019]
タスク対応型3次元シーンアフォーダンスセグメンテーション(TASA)について紹介する。
TASAは2次元のセマンティックキューと3次元の幾何学的推論を粗い方法で併用する新しい幾何学最適化フレームワークである。
3次元幾何情報を完全に活用するために、局所的な3次元幾何と2次元セマンティック先行情報を統合するために、3次元アベイランス改良モジュールを提案する。
論文 参考訳(メタデータ) (2025-11-12T13:36:37Z) - GeoPurify: A Data-Efficient Geometric Distillation Framework for Open-Vocabulary 3D Segmentation [57.8059956428009]
2次元視覚言語モデルから3次元セマンティックセグメンテーションへ機能を移行しようとする最近の試みは、永続的なトレードオフを露呈している。
3次元教師モデルから抽出した幾何学的事前情報を用いて2次元VLM生成した3次元点特徴に小さな学生親和性ネットワークを適用したGeoPurifyを提案する。
遅延幾何学情報と学習された親和性ネットワークから恩恵を受けることで、GeoPurifyはトレードオフを効果的に軽減し、優れたデータ効率を実現する。
論文 参考訳(メタデータ) (2025-10-02T16:37:56Z) - Seeing 3D Through 2D Lenses: 3D Few-Shot Class-Incremental Learning via Cross-Modal Geometric Rectification [59.17489431187807]
本稿では,CLIPの階層的空間意味論を活用することで3次元幾何学的忠実度を高めるフレームワークを提案する。
本手法は3次元のクラスインクリメンタル学習を著しく改善し,テクスチャバイアスに対して優れた幾何コヒーレンスとロバスト性を実現する。
論文 参考訳(メタデータ) (2025-09-18T13:45:08Z) - Ov3R: Open-Vocabulary Semantic 3D Reconstruction from RGB Videos [69.21508595833623]
Ov3Rは、RGBビデオストリームからのセマンティック3D再構成のためのフレームワークである。
CLIP3Rは、オブジェクトレベルのセマンティクスを埋め込みながら、重複するクリップから高密度なポイントマップを予測する。
2D-3D OVSは、空間的、幾何学的、意味的な手がかりを統合した融合記述子を学習することで、2D機能を3Dに持ち上げる。
論文 参考訳(メタデータ) (2025-07-29T17:55:58Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - DCSEG: Decoupled 3D Open-Set Segmentation using Gaussian Splatting [0.0]
本稿では,新しい3次元表現へのモジュラリティと適応性を確保するために,分離した3次元分割パイプラインを提案する。
我々は、合成および実世界の屋内データセットを評価し、同等のNeRFパイプラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-14T21:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。