論文の概要: SuperGSeg: Open-Vocabulary 3D Segmentation with Structured Super-Gaussians
- arxiv url: http://arxiv.org/abs/2412.10231v1
- Date: Fri, 13 Dec 2024 16:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:02:35.770960
- Title: SuperGSeg: Open-Vocabulary 3D Segmentation with Structured Super-Gaussians
- Title(参考訳): SuperGSeg: 構造化されたスーパーガウシアンによるオープンボキャブラリ3Dセグメンテーション
- Authors: Siyun Liang, Sen Wang, Kunyi Li, Michael Niemeyer, Stefano Gasperini, Nassir Navab, Federico Tombari,
- Abstract要約: 3D Gaussian Splattingは、その効率的なトレーニングとリアルタイムレンダリングで注目を集めている。
我々は,協調型コンテキスト認識シーン表現を促進する新しいアプローチであるSuperGSegを紹介する。
SuperGSegは、オープン語彙オブジェクトローカライゼーションとセマンティックセグメンテーションタスクの両方において、以前の作業より優れている。
- 参考スコア(独自算出の注目度): 77.77265204740037
- License:
- Abstract: 3D Gaussian Splatting has recently gained traction for its efficient training and real-time rendering. While the vanilla Gaussian Splatting representation is mainly designed for view synthesis, more recent works investigated how to extend it with scene understanding and language features. However, existing methods lack a detailed comprehension of scenes, limiting their ability to segment and interpret complex structures. To this end, We introduce SuperGSeg, a novel approach that fosters cohesive, context-aware scene representation by disentangling segmentation and language field distillation. SuperGSeg first employs neural Gaussians to learn instance and hierarchical segmentation features from multi-view images with the aid of off-the-shelf 2D masks. These features are then leveraged to create a sparse set of what we call Super-Gaussians. Super-Gaussians facilitate the distillation of 2D language features into 3D space. Through Super-Gaussians, our method enables high-dimensional language feature rendering without extreme increases in GPU memory. Extensive experiments demonstrate that SuperGSeg outperforms prior works on both open-vocabulary object localization and semantic segmentation tasks.
- Abstract(参考訳): 3D Gaussian Splattingは、その効率的なトレーニングとリアルタイムレンダリングで注目を集めている。
バニラ・ガウシアン・スプラッティングの表現は主にビュー合成のために設計されているが、近年の研究ではシーン理解と言語特徴で拡張する方法が研究されている。
しかし、既存の手法ではシーンの詳細な理解が欠如しており、複雑な構造を分割し解釈する能力が制限されている。
そこで我々は, セグメンテーションと言語分野の蒸留を分離することによって, 密集した文脈認識シーン表現を促進する新しいアプローチであるSuperGSegを紹介した。
SuperGSegはまずニューラルガウシアンを使用して、市販の2Dマスクを使用して、マルチビューイメージからインスタンスと階層的なセグメンテーション機能を学ぶ。
これらの機能は、我々がSuper-Gaussianと呼ぶスパースセットを作成するために利用されます。
超ガウス人は2D言語の特徴を3D空間に蒸留する。
超ガウス的手法により,GPUメモリを極端に増加させることなく,高次元言語特徴のレンダリングが可能となる。
大規模な実験により、SuperGSegはオープン語彙オブジェクトローカライゼーションとセマンティックセマンティックセグメンテーションタスクの両方において、事前の作業より優れていたことが示されている。
関連論文リスト
- GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D
Pretraining from Real-World Data [73.06536202251915]
ポイントクラウドとして表される3D形状は、画像と言語記述を整列させるために、マルチモーダル事前トレーニングの進歩を実現している。
GS-CLIPは,3D表現を向上させるために,マルチモーダル事前学習に3DGSを導入するための最初の試みである。
論文 参考訳(メタデータ) (2024-02-09T05:46:47Z) - SAGD: Boundary-Enhanced Segment Anything in 3D Gaussian via Gaussian Decomposition [66.80822249039235]
3Dガウススプラッティングは、新しいビュー合成のための代替の3D表現として登場した。
SAGDは3D-GSのための概念的にシンプルで効果的な境界拡張パイプラインである。
提案手法は粗い境界問題なく高品質な3Dセグメンテーションを実現し,他のシーン編集作業にも容易に適用できる。
論文 参考訳(メタデータ) (2024-01-31T14:19:03Z) - Segment Any 3D Gaussians [85.93694310363325]
本稿では, 3次元ガウススプレイティング(3D-GS)に基づく高効率3Dプロンプト可能なセグメンテーション法であるSAGAについて述べる。
入力として2D視覚的プロンプトが与えられたとき、SAGAは対応する3Dターゲットを4ミリ秒以内に3Dガウスで表現できる。
我々は,SAGAが最先端の手法に匹敵する品質で,リアルタイムな多粒度セグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-12-01T17:15:24Z) - Gaussian Grouping: Segment and Edit Anything in 3D Scenes [65.49196142146292]
ガウシアン・グルーピング(ガウシアン・グルーピング)はガウシアン・スプラッティングを拡張して,オープンワールドの3Dシーンで何かを共同で再構築・分割する。
暗黙のNeRF表現と比較すると,グループ化された3次元ガウシアンは,高画質,微粒度,高効率で,あらゆるものを3次元で再構成,分割,編集することができる。
論文 参考訳(メタデータ) (2023-12-01T17:09:31Z) - Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding [2.517953665531978]
オープン語彙クエリタスクのための新しいシーン表現であるLanguage Embedded 3D Gaussiansを紹介する。
我々の表現は、現在の言語埋め込み表現において、最高の視覚的品質と言語クエリの精度を達成する。
論文 参考訳(メタデータ) (2023-11-30T11:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。