論文の概要: GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane
- arxiv url: http://arxiv.org/abs/2405.17596v1
- Date: Mon, 27 May 2024 18:57:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 23:21:23.805496
- Title: GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane
- Title(参考訳): GOI:最適化可能なオープンボキャブラリ・セマンティック・スペース・ハイパープレーンで興味深い3Dガウシアンを見つける
- Authors: Yansong Qu, Shaohui Dai, Xinyang Li, Jianghang Lin, Liujuan Cao, Shengchuan Zhang, Rongrong Ji,
- Abstract要約: 3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
- 参考スコア(独自算出の注目度): 53.388937705785025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D open-vocabulary scene understanding, crucial for advancing augmented reality and robotic applications, involves interpreting and locating specific regions within a 3D space as directed by natural language instructions. To this end, we introduce GOI, a framework that integrates semantic features from 2D vision-language foundation models into 3D Gaussian Splatting (3DGS) and identifies 3D Gaussians of Interest using an Optimizable Semantic-space Hyperplane. Our approach includes an efficient compression method that utilizes scene priors to condense noisy high-dimensional semantic features into compact low-dimensional vectors, which are subsequently embedded in 3DGS. During the open-vocabulary querying process, we adopt a distinct approach compared to existing methods, which depend on a manually set fixed empirical threshold to select regions based on their semantic feature distance to the query text embedding. This traditional approach often lacks universal accuracy, leading to challenges in precisely identifying specific target areas. Instead, our method treats the feature selection process as a hyperplane division within the feature space, retaining only those features that are highly relevant to the query. We leverage off-the-shelf 2D Referring Expression Segmentation (RES) models to fine-tune the semantic-space hyperplane, enabling a more precise distinction between target regions and others. This fine-tuning substantially improves the accuracy of open-vocabulary queries, ensuring the precise localization of pertinent 3D Gaussians. Extensive experiments demonstrate GOI's superiority over previous state-of-the-art methods. Our project page is available at https://goi-hyperplane.github.io/ .
- Abstract(参考訳): 3Dのオープンボキャブラリのシーン理解は、拡張現実やロボットの応用に欠かせないもので、自然言語の指示に従って3D空間内の特定の領域を解釈し、配置する。
GOIは2次元視覚言語基礎モデルのセマンティック特徴を3次元ガウススプラッティング(3DGS)に統合し,最適化可能なセマンティック空間ハイパープレーンを用いて関心の3次元ガウスを同定するフレームワークである。
提案手法は,3DGSに埋め込まれたコンパクトな低次元ベクトルに雑音の多い高次元のセマンティック特徴を凝縮するために,シーン先行を利用した効率的な圧縮手法を含む。
オープン語彙クエリプロセスでは,クエリテキストの埋め込みに対する意味的特徴距離に基づいて,各領域に手動で設定した固定経験しきい値に依存する既存の手法と異なるアプローチを採用する。
この伝統的なアプローチは、しばしば普遍的な精度に欠けており、特定の対象領域を正確に特定する上での課題に繋がる。
その代わりに,提案手法は特徴空間内の超平面分割として特徴選択処理を扱い,クエリに高い関連性を持つ特徴のみを保持する。
既製の2次元参照式セグメンテーション(RES)モデルを用いて,セマンティック空間の超平面を微調整し,ターゲット領域と他の領域とのより正確な区別を可能にする。
この微調整により、オープン語彙クエリの精度が大幅に向上し、関連する3Dガウスの正確なローカライゼーションが保証される。
広汎な実験は、GOIが従来の最先端手法よりも優れていることを示す。
私たちのプロジェクトページはhttps://goi-hyperplane.github.io/で公開されています。
関連論文リスト
- LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding [42.750252190275546]
LangSurfは3D言語フィールドとオブジェクトの表面を整列する言語組み込みのSurface Fieldである。
提案手法は,オブジェクトを3次元空間に分割することで,インスタンス認識,削除,編集におけるアプローチの有効性を高めることができる。
論文 参考訳(メタデータ) (2024-12-23T15:12:20Z) - TSGaussian: Semantic and Depth-Guided Target-Specific Gaussian Splatting from Sparse Views [18.050257821756148]
TSGaussianは、新しいビュー合成タスクにおける幾何学的劣化を避けるために、意味的制約と深さ事前の制約を組み合わせる新しいフレームワークである。
提案手法は,バックグラウンドアロケーションを最小化しながら,指定された目標に対する計算資源の優先順位付けを行う。
大規模な実験により、TSGaussianは3つの標準データセット上で最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-12-13T11:26:38Z) - SLGaussian: Fast Language Gaussian Splatting in Sparse Views [15.0280871846496]
スパース視点から3次元意味体を構築するフィードフォワード手法であるSLGaussianを提案する。
SLGaussianは、3D空間に言語情報を効率よく埋め込むことができ、スパースビュー条件下で正確な3Dシーン理解のための堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2024-12-11T12:18:30Z) - Occam's LGS: A Simple Approach for Language Gaussian Splatting [57.00354758206751]
言語接地型3次元ガウススプラッティングの高度な技術は、単に不要であることを示す。
オッカムのカミソリを手作業に適用し、重み付けされた多視点特徴集計を行う。
我々の結果は2桁のスピードアップによる最先端の結果を提供する。
論文 参考訳(メタデータ) (2024-12-02T18:50:37Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - SplatLoc: 3D Gaussian Splatting-based Visual Localization for Augmented Reality [50.179377002092416]
より少ないパラメータで高品質なレンダリングが可能な効率的なビジュアルローカライズ手法を提案する。
提案手法は,最先端の暗黙的視覚的ローカライゼーションアプローチに対して,より優れた,あるいは同等なレンダリングとローカライゼーション性能を実現する。
論文 参考訳(メタデータ) (2024-09-21T08:46:16Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。