論文の概要: Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2403.15624v1
- Date: Fri, 22 Mar 2024 21:28:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 21:41:55.424314
- Title: Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting
- Title(参考訳): セマンティックガウス:3次元ガウススプレイティングによるオープン語彙シーン理解
- Authors: Jun Guo, Xiaojian Ma, Yue Fan, Huaping Liu, Qing Li,
- Abstract要約: オープン語彙の3Dシーン理解はコンピュータビジョンにおいて重要な課題である。
本稿では,セマンティックガウシアン(SemanticGaussians)について紹介する。
提案手法は,従来のオープン語彙シーン理解手法よりも4.2%mIoUと4.0%mAccの改善を実現している。
- 参考スコア(独自算出の注目度): 27.974762304763694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary 3D scene understanding presents a significant challenge in computer vision, withwide-ranging applications in embodied agents and augmented reality systems. Previous approaches haveadopted Neural Radiance Fields (NeRFs) to analyze 3D scenes. In this paper, we introduce SemanticGaussians, a novel open-vocabulary scene understanding approach based on 3D Gaussian Splatting. Our keyidea is distilling pre-trained 2D semantics into 3D Gaussians. We design a versatile projection approachthat maps various 2Dsemantic features from pre-trained image encoders into a novel semantic component of 3D Gaussians, withoutthe additional training required by NeRFs. We further build a 3D semantic network that directly predictsthe semantic component from raw 3D Gaussians for fast inference. We explore several applications ofSemantic Gaussians: semantic segmentation on ScanNet-20, where our approach attains a 4.2% mIoU and 4.0%mAcc improvement over prior open-vocabulary scene understanding counterparts; object part segmentation,sceneediting, and spatial-temporal segmentation with better qualitative results over 2D and 3D baselines,highlighting its versatility and effectiveness on supporting diverse downstream tasks.
- Abstract(参考訳): オープンボキャブラリ3Dシーン理解は、コンピュータビジョンにおいて、エンボディエージェントや拡張現実システムにおける幅広い応用において重要な課題である。
従来のアプローチでは、Neural Radiance Fields(NeRF)を使用して3Dシーンを解析していた。
本稿では,セマンティックガウシアン(SemanticGaussians)について紹介する。
我々のキーイデアは、事前訓練された2Dセマンティクスを3Dガウスに蒸留することである。
我々は,事前学習した画像エンコーダの様々な2次元特徴を,NeRFによる追加の訓練を必要とせず,新しい3次元ガウスのセマンティックな構成要素にマッピングする多目的投影手法を設計する。
さらに、高速な推論のために、生の3Dガウスから意味コンポーネントを直接予測する3Dセマンティックネットワークを構築します。
ScanNet-20におけるセマンティック・ガウスのセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティビティと4.2%mIoUと4.0%AccのAccは、従来のオープンボキャブラリーなシーン理解よりも向上し、オブジェクト部分セマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンのセマンティックなセマンティックなセマンティックなセマンの応用を探求を探求を探求に研究した。
関連論文リスト
- PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM [105.01907579424362]
PanoSLAMは、幾何学的再構成、3Dセマンティックセマンティックセマンティクス、3Dインスタンスセマンティクスを統合フレームワークに統合する最初のSLAMシステムである。
初めて、RGB-Dビデオから直接、オープンワールド環境のパノプティカル3D再構成を実現する。
論文 参考訳(メタデータ) (2024-12-31T08:58:10Z) - OVGaussian: Generalizable 3D Gaussian Segmentation with Open Vocabularies [112.80292725951921]
textbfOVGaussianは3D textbfGaussian表現に基づいた、一般化可能なtextbfOpen-textbfVocabulary 3Dセマンティックセマンティックセグメンテーションフレームワークである。
まず,3DGSをベースとした大規模3Dシーンデータセット(textbfSegGaussian)を構築し,ガウス点とマルチビュー画像の両方に対して詳細なセマンティックおよびインスタンスアノテーションを提供する。
シーン間のセマンティック・一般化を促進するために,ジェネリック・セマンティック・ラスタライゼーション(GSR)を導入する。
論文 参考訳(メタデータ) (2024-12-31T07:55:35Z) - GSemSplat: Generalizable Semantic 3D Gaussian Splatting from Uncalibrated Image Pairs [33.74118487769923]
GSemSplatは,3次元ガウスに関連付けられた意味表現を,シーンごとの最適化や高密度画像収集,キャリブレーションなしに学習するフレームワークである。
本研究では,2次元空間における領域固有の意味的特徴と文脈認識的意味的特徴を両立させる二重機能アプローチを用いる。
論文 参考訳(メタデータ) (2024-12-22T09:06:58Z) - Occam's LGS: A Simple Approach for Language Gaussian Splatting [57.00354758206751]
言語接地型3次元ガウススプラッティングの高度な技術は、単に不要であることを示す。
オッカムのカミソリを手作業に適用し、重み付けされた多視点特徴集計を行う。
我々の結果は2桁のスピードアップによる最先端の結果を提供する。
論文 参考訳(メタデータ) (2024-12-02T18:50:37Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。
SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。
また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding [11.118857208538039]
基礎モデルの視覚言語埋め込みを3次元ガウススプラッティング(GS)に組み込んだ基礎モデル埋め込みガウススプラッティング(S)を提案する。
結果は、多面的なセマンティック一貫性を示し、様々な下流タスクを容易にし、オープン語彙言語に基づくオブジェクト検出において、最先端のメソッドを10.2%上回った。
本研究では,視覚・言語・3次元シーン表現の交わりについて検討し,制御されていない現実世界環境におけるシーン理解の強化の道を開く。
論文 参考訳(メタデータ) (2024-01-03T20:39:02Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。