論文の概要: CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding
- arxiv url: http://arxiv.org/abs/2404.14249v1
- Date: Mon, 22 Apr 2024 15:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 13:37:25.081356
- Title: CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding
- Title(参考訳): CLIP-GS:CLIP-Informed Gaussian Splatting for Real-time and View-Consistent 3D Semantic Understanding
- Authors: Guibiao Liao, Jiankun Li, Zhenyu Bao, Xiaoqing Ye, Jingdong Wang, Qing Li, Kanglin Liu,
- Abstract要約: コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。
SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。
また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
- 参考スコア(独自算出の注目度): 32.76277160013881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent 3D Gaussian Splatting (GS) exhibits high-quality and real-time synthesis of novel views in 3D scenes. Currently, it primarily focuses on geometry and appearance modeling, while lacking the semantic understanding of scenes. To bridge this gap, we present CLIP-GS, which integrates semantics from Contrastive Language-Image Pre-Training (CLIP) into Gaussian Splatting to efficiently comprehend 3D environments without annotated semantic data. In specific, rather than straightforwardly learning and rendering high-dimensional semantic features of 3D Gaussians, which significantly diminishes the efficiency, we propose a Semantic Attribute Compactness (SAC) approach. SAC exploits the inherent unified semantics within objects to learn compact yet effective semantic representations of 3D Gaussians, enabling highly efficient rendering (>100 FPS). Additionally, to address the semantic ambiguity, caused by utilizing view-inconsistent 2D CLIP semantics to supervise Gaussians, we introduce a 3D Coherent Self-training (3DCS) strategy, resorting to the multi-view consistency originated from the 3D model. 3DCS imposes cross-view semantic consistency constraints by leveraging refined, self-predicted pseudo-labels derived from the trained 3D Gaussian model, thereby enhancing precise and view-consistent segmentation results. Extensive experiments demonstrate that our method remarkably outperforms existing state-of-the-art approaches, achieving improvements of 17.29% and 20.81% in mIoU metric on Replica and ScanNet datasets, respectively, while maintaining real-time rendering speed. Furthermore, our approach exhibits superior performance even with sparse input data, verifying the robustness of our method.
- Abstract(参考訳): 最近の3Dガウススプラッティング(GS)では、3Dシーンにおける新しいビューの高品質かつリアルタイムな合成が示されている。
現在は主に幾何学と外観モデリングに焦点を合わせているが、シーンの意味的な理解は欠如している。
このギャップを埋めるため,CLIP-GSを提案する。CLIP(Contrastive Language- Image Pre-Training)のセマンティクスをガウス・スプレイティングに統合し,注釈付きセマンティクスデータなしで3D環境を効率的に理解する。
具体的には,効率を著しく低下させる3次元ガウスの高次元意味的特徴を直接学習・描画するのではなく,セマンティック属性コンパクト性(SAC)アプローチを提案する。
SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学習し、高効率なレンダリングを可能にする(>100 FPS)。
さらに、ビュー一貫性のない2D CLIPセマンティクスを利用してガウシアンを監督することによるセマンティクスの曖昧さに対処するため、3Dモデルから派生した多視点一貫性を利用して、3Dコヒーレント自己学習(3DCS)戦略を導入する。
3DCSは、訓練された3次元ガウスモデルから派生した洗練された自己予測された擬似ラベルを活用することで、横断的な意味整合性制約を課し、精度と視点整合性セグメンテーション結果を向上する。
この手法は,ReplicaとScanNetのデータセットにおけるmIoUの17.29%と20.81%の改善を実現し,リアルタイムレンダリング速度を維持しながら,既存の最先端手法を著しく上回ることを示した。
さらに,本手法のロバスト性を検証し,スパース入力データにおいても優れた性能を示す。
関連論文リスト
- SAGS: Structure-Aware 3D Gaussian Splatting [53.6730827668389]
本研究では,シーンの形状を暗黙的に符号化する構造認識型ガウス散乱法(SAGS)を提案する。
SAGSは、最先端のレンダリング性能と、ベンチマークノベルビュー合成データセットのストレージ要件の削減を反映している。
論文 参考訳(メタデータ) (2024-04-29T23:26:30Z) - CompGS: Efficient 3D Scene Representation via Compressed Gaussian Splatting [68.94594215660473]
Compressed Gaussian Splatting (CompGS) という,効率的な3次元シーン表現を提案する。
我々は少数のアンカープリミティブを予測に利用し、プリミティブの大多数を非常にコンパクトな残留形にカプセル化することができる。
実験の結果,提案手法は既存の手法よりも優れており,モデル精度とレンダリング品質を損なうことなく,3次元シーン表現のコンパクト性に優れていた。
論文 参考訳(メタデータ) (2024-04-15T04:50:39Z) - latentSplat: Autoencoding Variational Gaussians for Fast Generalizable 3D Reconstruction [48.86083272054711]
latentSplatは3D潜在空間における意味ガウスを予測し、軽量な生成型2Dアーキテクチャで切り落としてデコードする手法である。
latentSplatは、高速でスケーラブルで高解像度なデータでありながら、復元品質と一般化におけるこれまでの成果よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-24T20:48:36Z) - NEDS-SLAM: A Novel Neural Explicit Dense Semantic SLAM Framework using 3D Gaussian Splatting [5.655341825527482]
本稿では,3次元ガウス表現に基づく明示的DenseセマンティックSLAMシステムNEDS-SLAMを提案する。
本研究では,事前学習したセグメンテーションヘッドからの誤推定の影響を低減するために,空間一貫性のある特徴融合モデルを提案する。
我々は,高次元意味的特徴をコンパクトな3次元ガウス表現に圧縮するために,軽量エンコーダデコーダを用いる。
論文 参考訳(メタデータ) (2024-03-18T11:31:03Z) - SemGauss-SLAM: Dense Semantic Gaussian Splatting SLAM [14.126704753481972]
本稿では,高精度な3次元セマンティックマッピング,ロバストなカメラトラッキング,高品質なリアルタイムレンダリングを実現するSemGauss-SLAMを提案する。
セマンティックな特徴を3次元ガウス表現に組み込んで,環境の空間的レイアウト内で意味情報を効果的にエンコードする。
我々のSemGauss-SLAM法は、ReplicaおよびScanNetデータセットのマッピングと追跡精度の観点から、既存の高密度なセマンティックSLAM法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-12T10:33:26Z) - S^2Former-OR: Single-Stage Bimodal Transformer for Scene Graph
Generation in OR [52.964721233679406]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に、ポーズ推定とオブジェクト検出を伴う中間プロセスに依存するセマンティックシーングラフを生成する多段階学習に依存してきた。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGの単一段バイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。
提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z) - Volumetric Semantically Consistent 3D Panoptic Mapping [84.2638617094967]
非構造環境における自律エージェントに適したセマンティック3Dマップを生成することを目的としたオンライン2次元から3次元のセマンティック・インスタンスマッピングアルゴリズムを提案する。
マッピング中にセマンティック予測の信頼性を統合し、セマンティックおよびインスタンス一貫性のある3D領域を生成する新しい方法を導入する。
提案手法は,パブリックな大規模データセット上での最先端の精度を実現し,多くの広く使用されているメトリクスを改善した。
論文 参考訳(メタデータ) (2023-09-26T08:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。