論文の概要: econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians
- arxiv url: http://arxiv.org/abs/2504.06003v1
- Date: Tue, 08 Apr 2025 13:12:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:29:41.052921
- Title: econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians
- Title(参考訳): econSG: 効率的かつ多視点一貫性を持つオープン語彙3次元意味ガウス
- Authors: Can Zhang, Gim Hee Lee,
- Abstract要約: 3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
- 参考スコア(独自算出の注目度): 56.85804719947
- License:
- Abstract: The primary focus of most recent works on open-vocabulary neural fields is extracting precise semantic features from the VLMs and then consolidating them efficiently into a multi-view consistent 3D neural fields representation. However, most existing works over-trusted SAM to regularize image-level CLIP without any further refinement. Moreover, several existing works improved efficiency by dimensionality reduction of semantic features from 2D VLMs before fusing with 3DGS semantic fields, which inevitably leads to multi-view inconsistency. In this work, we propose econSG for open-vocabulary semantic segmentation with 3DGS. Our econSG consists of: 1) A Confidence-region Guided Regularization (CRR) that mutually refines SAM and CLIP to get the best of both worlds for precise semantic features with complete and precise boundaries. 2) A low dimensional contextual space to enforce 3D multi-view consistency while improving computational efficiency by fusing backprojected multi-view 2D features and follow by dimensional reduction directly on the fused 3D features instead of operating on each 2D view separately. Our econSG shows state-of-the-art performance on four benchmark datasets compared to the existing methods. Furthermore, we are also the most efficient training among all the methods.
- Abstract(参考訳): オープン語彙ニューラルフィールドに関する最近の研究の主な焦点は、VLMから正確なセマンティックな特徴を抽出し、それらをマルチビューで一貫した3Dニューラルフィールド表現に効率的に統合することである。
しかし、既存の作業の多くはSAMを過度に信頼して、画像レベルのCLIPをさらなる改善なしに正規化している。
さらに、3DGSセマンティックフィールドと融合する前に、2次元VLMから意味的特徴を次元的に還元することで効率を向上し、必然的に多視点不整合をもたらす。
本研究では,3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
econSGは以下の通りです。
1) SAMとCLIPを相互に洗練し、完全かつ正確な境界を持つ正確な意味的特徴を両世界の長所から得る信頼領域ガイド正規化(CRR)。
2) バックプロジェクションされた多視点2次元特徴を融合させて計算効率を向上させつつ、3次元の多視点一貫性を強制する低次元空間を, 各2次元ビューを別々に操作するのではなく, 融合した3次元特徴に直接追従する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
さらに、私たちはすべての方法の中で、最も効率的なトレーニングもしています。
関連論文リスト
- LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - LUDVIG: Learning-free Uplifting of 2D Visual features to Gaussian Splatting scenes [39.687526103092445]
本稿では,3次元シーンのガウススプラッティング表現に2次元画像特徴を引き上げる新しい手法を提案する。
DINOv2はSAMのような数百万の注釈付きセグメンテーションマスクで訓練されていないにもかかわらず、汎用的なDINOv2特徴を用いて競合セグメンテーション結果を得る。
CLIP機能に適用すると,オープン語彙オブジェクトローカライゼーションタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-10-18T13:44:29Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。
SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。
また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。