論文の概要: CLIP-GS: CLIP-Informed Gaussian Splatting for View-Consistent 3D Indoor Semantic Understanding
- arxiv url: http://arxiv.org/abs/2404.14249v2
- Date: Mon, 23 Jun 2025 08:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.15859
- Title: CLIP-GS: CLIP-Informed Gaussian Splatting for View-Consistent 3D Indoor Semantic Understanding
- Title(参考訳): CLIP-GS: View-Consistent 3D Indoor Semantic Understanding のためのCLIP-Informed Gaussian Splatting
- Authors: Guibiao Liao, Jiankun Li, Zhenyu Bao, Xiaoqing Ye, Qing Li, Kanglin Liu,
- Abstract要約: 室内シーンのオープンな3Dセマンティック理解のためのCLIPモデルを用いた3Dガウススティング(3DGS)が注目されている。
提案するセマンティック属性コンパクト性(SAC)と3Dコヒーレント正規化(3DCR)を用いて、3次元屋内シーンのコヒーレントな意味理解を効率的に実現するCLIP-GSを提案する。
ScanNetとReplicaのデータセット上で,mIoUの21.20%と13.05%の改善を実現し,既存の最先端手法を著しく抑制する。
- 参考スコア(独自算出の注目度): 17.440124130814166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploiting 3D Gaussian Splatting (3DGS) with Contrastive Language-Image Pre-Training (CLIP) models for open-vocabulary 3D semantic understanding of indoor scenes has emerged as an attractive research focus. Existing methods typically attach high-dimensional CLIP semantic embeddings to 3D Gaussians and leverage view-inconsistent 2D CLIP semantics as Gaussian supervision, resulting in efficiency bottlenecks and deficient 3D semantic consistency. To address these challenges, we present CLIP-GS, efficiently achieving a coherent semantic understanding of 3D indoor scenes via the proposed Semantic Attribute Compactness (SAC) and 3D Coherent Regularization (3DCR). SAC approach exploits the naturally unified semantics within objects to learn compact, yet effective, semantic Gaussian representations, enabling highly efficient rendering (>100 FPS). 3DCR enforces semantic consistency in 2D and 3D domains: In 2D, 3DCR utilizes refined view-consistent semantic outcomes derived from 3DGS to establish cross-view coherence constraints; in 3D, 3DCR encourages features similar among 3D Gaussian primitives associated with the same object, leading to more precise and coherent segmentation results. Extensive experimental results demonstrate that our method remarkably suppresses existing state-of-the-art approaches, achieving mIoU improvements of 21.20% and 13.05% on ScanNet and Replica datasets, respectively, while maintaining real-time rendering speed. Furthermore, our approach exhibits superior performance even with sparse input data, substantiating its robustness.
- Abstract(参考訳): 室内シーンのオープンな3Dセマンティック理解のためのCLIPモデルを用いた3Dガウス版3DGS(Contrastive Language- Image Pre-Training)が注目されている。
既存の手法は通常、高次元のCLIPセマンティック埋め込みを3Dガウスに付加し、ビュー一貫性のない2DCLIPセマンティックスをガウスの監督として活用し、効率のボトルネックと欠点のある3Dセマンティック一貫性をもたらす。
これらの課題に対処するために,提案するセマンティック属性圧縮(SAC)と3Dコヒーレント正規化(DCR)を用いて,3次元屋内シーンのコヒーレントなセマンティックなセマンティック理解を実現するCLIP-GSを提案する。
SACアプローチは、オブジェクト内の自然に統一されたセマンティクスを利用して、コンパクトで効果的でセマンティックなガウス表現を学習し、高効率なレンダリング(>100 FPS)を可能にする。
3DCRは2Dと3Dドメインのセマンティック一貫性を強制する: 2Dでは、3DGSから派生した洗練されたビュー一貫性のセマンティックアウトカムを使用して、クロスビューコヒーレンス制約を確立する; 3DCRでは、同じオブジェクトに関連付けられた3Dガウス的プリミティブに類似した特徴を奨励し、より正確でコヒーレントなセグメンテーション結果をもたらす。
ScanNetとReplicaのデータセットにおけるmIoUの21.20%と13.05%の改善を,リアルタイムレンダリング速度を維持しながら達成し,既存の最先端手法を著しく抑制することを示す。
さらに,本手法は,スパース入力データにおいても優れた性能を示し,頑健さを裏付けるものである。
関連論文リスト
- GSFF-SLAM: 3D Semantic Gaussian Splatting SLAM via Feature Field [18.520468059548865]
GSFF-SLAMは3次元ガウススプラッティングに基づく新しい意味論的SLAMシステムである。
提案手法は, 様々な2次元先行情報, 特にスパース信号と雑音信号を用いた意味的再構成を支援する。
2D基底真理を利用する場合、GSFF-SLAMは95.03% mIoUで最先端のセマンティックセグメンテーション性能を達成する。
論文 参考訳(メタデータ) (2025-04-28T01:21:35Z) - econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - Augmented Efficiency: Reducing Memory Footprint and Accelerating Inference for 3D Semantic Segmentation through Hybrid Vision [9.96433151449016]
本稿では,2次元と3次元のコンピュータビジョン技術を組み合わせた3次元セマンティックセグメンテーションの新たなアプローチを提案する。
我々は3次元点雲にリンクしたRGB画像に対して2Dセマンティックセマンティックセマンティックセマンティクスを行い、その結果をクラスラベルの押出手法を用いて3Dに拡張する。
このモデルは、KITTI-360データセット上の最先端の3Dセマンティックセマンティックセグメンテーションモデルとして機能する。
論文 参考訳(メタデータ) (2024-07-23T00:04:10Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - SAGS: Structure-Aware 3D Gaussian Splatting [53.6730827668389]
本研究では,シーンの形状を暗黙的に符号化する構造認識型ガウス散乱法(SAGS)を提案する。
SAGSは、最先端のレンダリング性能と、ベンチマークノベルビュー合成データセットのストレージ要件の削減を反映している。
論文 参考訳(メタデータ) (2024-04-29T23:26:30Z) - CompGS: Efficient 3D Scene Representation via Compressed Gaussian Splatting [68.94594215660473]
Compressed Gaussian Splatting (CompGS) という,効率的な3次元シーン表現を提案する。
我々は少数のアンカープリミティブを予測に利用し、プリミティブの大多数を非常にコンパクトな残留形にカプセル化することができる。
実験の結果,提案手法は既存の手法よりも優れており,モデル精度とレンダリング品質を損なうことなく,3次元シーン表現のコンパクト性に優れていた。
論文 参考訳(メタデータ) (2024-04-15T04:50:39Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - NEDS-SLAM: A Neural Explicit Dense Semantic SLAM Framework using 3D Gaussian Splatting [5.655341825527482]
NEDS-SLAMは3次元ガウス表現に基づく意味論的SLAMシステムである。
本研究では,事前学習したセグメンテーションヘッドからの誤推定の影響を低減するために,空間的に一貫性のある特徴融合モデルを提案する。
我々は,高次元意味的特徴をコンパクトな3次元ガウス表現に圧縮するために,軽量エンコーダデコーダを用いる。
論文 参考訳(メタデータ) (2024-03-18T11:31:03Z) - SemGauss-SLAM: Dense Semantic Gaussian Splatting SLAM [14.126704753481972]
本稿では,SemGauss-SLAMを提案する。SemGauss-SLAMは,高精度な3次元セマンティックマッピング,ロバストなカメラトラッキング,高品質なレンダリングを実現する。
セマンティックな特徴を3次元ガウス表現に組み込んで,環境の空間的レイアウト内で意味情報を効果的にエンコードする。
トラッキングにおける累積ドリフトの低減とセマンティック再構築の精度向上のために,セマンティックインフォームドバンドル調整を導入する。
論文 参考訳(メタデータ) (2024-03-12T10:33:26Z) - SAGD: Boundary-Enhanced Segment Anything in 3D Gaussian via Gaussian Decomposition [66.80822249039235]
3Dガウススプラッティングは、新しいビュー合成のための代替の3D表現として登場した。
SAGDは3D-GSのための概念的にシンプルで効果的な境界拡張パイプラインである。
提案手法は粗い境界問題なく高品質な3Dセグメンテーションを実現し,他のシーン編集作業にも容易に適用できる。
論文 参考訳(メタデータ) (2024-01-31T14:19:03Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。
提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z) - Volumetric Semantically Consistent 3D Panoptic Mapping [77.13446499924977]
非構造環境における自律エージェントに適したセマンティック3Dマップを生成することを目的としたオンライン2次元から3次元のセマンティック・インスタンスマッピングアルゴリズムを提案する。
マッピング中にセマンティック予測の信頼性を統合し、セマンティックおよびインスタンス一貫性のある3D領域を生成する新しい方法を導入する。
提案手法は,パブリックな大規模データセット上での最先端の精度を実現し,多くの広く使用されているメトリクスを改善した。
論文 参考訳(メタデータ) (2023-09-26T08:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。