論文の概要: Semantic Consistent Language Gaussian Splatting for Point-Level Open-vocabulary Querying
- arxiv url: http://arxiv.org/abs/2503.21767v1
- Date: Thu, 27 Mar 2025 17:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:17.117593
- Title: Semantic Consistent Language Gaussian Splatting for Point-Level Open-vocabulary Querying
- Title(参考訳): 点レベル開語彙クエリのための意味一貫性言語ガウススプラッティング
- Authors: Hairong Yin, Huangying Zhan, Yi Xu, Raymond A. Yeh,
- Abstract要約: 本稿では,LangSplatのフレームワーク上に構築されたポイントレベルのクエリ手法を提案する。
提案手法は,3D-OVSデータセット上でのmIoUによる+20.42の改善を実現する。
- 参考スコア(独自算出の注目度): 20.478039009510464
- License:
- Abstract: Open-vocabulary querying in 3D Gaussian Splatting aims to identify semantically relevant regions within a 3D Gaussian representation based on a given text query. Prior work, such as LangSplat, addressed this task by retrieving these regions in the form of segmentation masks on 2D renderings. More recently, OpenGaussian introduced point-level querying, which directly selects a subset of 3D Gaussians. In this work, we propose a point-level querying method that builds upon LangSplat's framework. Our approach improves the framework in two key ways: (a) we leverage masklets from the Segment Anything Model 2 (SAM2) to establish semantic consistent ground-truth for distilling the language Gaussians; (b) we introduces a novel two-step querying approach that first retrieves the distilled ground-truth and subsequently uses the ground-truth to query the individual Gaussians. Experimental evaluations on three benchmark datasets demonstrate that the proposed method achieves better performance compared to state-of-the-art approaches. For instance, our method achieves an mIoU improvement of +20.42 on the 3D-OVS dataset.
- Abstract(参考訳): 3Dガウススプラッティングにおけるオープン語彙クエリは、与えられたテキストクエリに基づいて、3Dガウス表現内の意味的関連領域を特定することを目的としている。
LangSplatのような以前の作業では、これらの領域を2Dレンダリングのセグメンテーションマスクとして検索することで、この問題に対処していた。
より最近、OpenGaussianはポイントレベルのクエリを導入し、3Dガウスのサブセットを直接選択した。
本稿では,LangSplatのフレームワーク上に構築されたポイントレベルのクエリ手法を提案する。
私たちのアプローチでは、フレームワークを2つの重要な方法で改善しています。
(a)Segment Anything Model 2(SAM2)のマスクレットを活用して、ガウス語を蒸留するための意味一貫性のある基盤構造を確立する。
b) 新たな2段階のクエリ手法を導入し,まず蒸留した接地木を抽出し,その後,個別のガウス語を問うために接地木を用いる。
3つのベンチマークデータセットに対する実験結果から,提案手法は最先端手法と比較して性能が向上することが示された。
例えば、3D-OVSデータセット上でのmIoUの改善は+20.42である。
関連論文リスト
- Planar Gaussian Splatting [42.74999794635269]
Planar Gaussian Splatting (PGS)は、3D幾何学を学習し、シーンの3D平面を解析する新しいニューラルネットワーク手法である。
PGSは3次元平面ラベルや深度監視を必要とせず、3次元平面再構成における最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-12-02T19:46:43Z) - Occam's LGS: An Efficient Approach for Language Gaussian Splatting [57.00354758206751]
言語3Dガウススプラッティングのための複雑なパイプラインは、単純に不要であることを示す。
我々は,オッカムのカミソリを手作業に適用し,高効率な重み付き多視点特徴集約技術を実現する。
論文 参考訳(メタデータ) (2024-12-02T18:50:37Z) - MonoGSDF: Exploring Monocular Geometric Cues for Gaussian Splatting-Guided Implicit Surface Reconstruction [84.07233691641193]
高品質な再構成のための神経信号距離場(SDF)とプリミティブを結合する新しい手法であるMonoGSDFを紹介する。
任意のスケールのシーンを扱うために,ロバストな一般化のためのスケーリング戦略を提案する。
実世界のデータセットの実験は、効率を保ちながら、以前の方法よりも優れています。
論文 参考訳(メタデータ) (2024-11-25T20:07:07Z) - ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。
データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。
textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - RT-GS2: Real-Time Generalizable Semantic Segmentation for 3D Gaussian Representations of Radiance Fields [6.071025178912125]
ガウススプラッティングを用いた最初の一般化可能なセマンティックセマンティックセグメンテーション法であるRT-GS2を紹介する。
提案手法は27.03 FPSのリアルタイム性能を実現し,既存の手法に比べて901倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-28T10:34:28Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。
提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。