論文の概要: GS4: Generalizable Sparse Splatting Semantic SLAM
- arxiv url: http://arxiv.org/abs/2506.06517v2
- Date: Tue, 28 Oct 2025 05:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 17:50:20.082835
- Title: GS4: Generalizable Sparse Splatting Semantic SLAM
- Title(参考訳): GS4:Sparse Splatting Semantic SLAM
- Authors: Mingqi Jiang, Chanho Kim, Chen Ziwen, Li Fuxin,
- Abstract要約: GS4は、GSベースのセマンティックSLAMシステムである。
従来のアプローチと比較して、GS4は10倍速く動作し、ガウシアンを10倍少なく使用し、最先端のパフォーマンスを実現している。
実世界のScanNetとScanNet++ベンチマークの実験では、最先端のセマンティックSLAMのパフォーマンスが示されている。
- 参考スコア(独自算出の注目度): 5.982750670099723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional SLAM algorithms excel at camera tracking, but typically produce incomplete and low-resolution maps that are not tightly integrated with semantics prediction. Recent work integrates Gaussian Splatting (GS) into SLAM to enable dense, photorealistic 3D mapping, yet existing GS-based SLAM methods require per-scene optimization that is slow and consumes an excessive number of Gaussians. We present GS4, the first generalizable GS-based semantic SLAM system. Compared with prior approaches, GS4 runs 10x faster, uses 10x fewer Gaussians, and achieves state-of-the-art performance across color, depth, semantic mapping and camera tracking. From an RGB-D video stream, GS4 incrementally builds and updates a set of 3D Gaussians using a feed-forward network. First, the Gaussian Prediction Model estimates a sparse set of Gaussian parameters from input frame, which integrates both color and semantic prediction with the same backbone. Then, the Gaussian Refinement Network merges new Gaussians with the existing set while avoiding redundancy. Finally, we propose to optimize GS for only 1-5 iterations that corrects drift and floaters when significant pose changes are detected. Experiments on the real-world ScanNet and ScanNet++ benchmarks demonstrate state-of-the-art semantic SLAM performance, with strong generalization capability shown through zero-shot transfer to the NYUv2 and TUM RGB-D datasets.
- Abstract(参考訳): 従来のSLAMアルゴリズムは、カメラトラッキングにおいて優れているが、通常、セマンティックス予測と密に統合されていない不完全で低解像度のマップを生成する。
最近の研究は、Gaussian Splatting (GS)をSLAMに統合し、高密度でフォトリアリスティックな3Dマッピングを可能にするが、既存のGSベースのSLAM手法では、スローで過剰な数のガウスを消費するシーンごとの最適化が必要である。
GS4は、GSベースのセマンティックSLAMシステムである。
従来のアプローチと比較して、GS4は10倍速く動作し、ガウシアンを10倍少なく使用し、色、深さ、セマンティックマッピング、カメラトラッキングといった最先端のパフォーマンスを達成する。
RGB-Dビデオストリームから、GS4はフィードフォワードネットワークを使用して、一連の3Dガウスをインクリメンタルにビルドし、更新する。
まず、ガウス予測モデルが入力フレームからガウスパラメータのスパースセットを推定し、色と意味の両方を同じバックボーンに統合する。
そして、ガウシアン精錬ネットワークは、冗長性を避けながら、新しいガウシアンと既存の集合を融合する。
最後に,大きなポーズ変化が検出された場合にドリフトとフローターを補正する1~5回だけGSを最適化することを提案する。
実世界のScanNetとScanNet++ベンチマークの実験は、最先端のセマンティックSLAMパフォーマンスを示し、NYUv2とTUM RGB-Dデータセットへのゼロショット転送を通じて強力な一般化能力を示す。
関連論文リスト
- RGB-Only Gaussian Splatting SLAM for Unbounded Outdoor Scenes [12.150995604820443]
3D Gaussian Splatting (3DGS) はSLAMにおいて高忠実性ノベルビューを生成するため、一般的なソリューションとなっている。
従来のGSベースの手法は主に屋内シーンをターゲットにしており、RGB-Dセンサーや事前訓練された深度推定モデルに依存している。
本稿では,RGBのみのガウススプラッティングSLAM法を提案する。
論文 参考訳(メタデータ) (2025-02-21T18:02:31Z) - PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM [105.01907579424362]
PanoSLAMは、幾何学的再構成、3Dセマンティックセマンティックセマンティクス、3Dインスタンスセマンティクスを統合フレームワークに統合する最初のSLAMシステムである。
初めて、RGB-Dビデオから直接、オープンワールド環境のパノプティカル3D再構成を実現する。
論文 参考訳(メタデータ) (2024-12-31T08:58:10Z) - OVGaussian: Generalizable 3D Gaussian Segmentation with Open Vocabularies [112.80292725951921]
textbfOVGaussianは3D textbfGaussian表現に基づいた、一般化可能なtextbfOpen-textbfVocabulary 3Dセマンティックセマンティックセグメンテーションフレームワークである。
まず,3DGSをベースとした大規模3Dシーンデータセット(textbfSegGaussian)を構築し,ガウス点とマルチビュー画像の両方に対して詳細なセマンティックおよびインスタンスアノテーションを提供する。
シーン間のセマンティック・一般化を促進するために,ジェネリック・セマンティック・ラスタライゼーション(GSR)を導入する。
論文 参考訳(メタデータ) (2024-12-31T07:55:35Z) - HI-SLAM2: Geometry-Aware Gaussian SLAM for Fast Monocular Scene Reconstruction [38.47566815670662]
HI-SLAM2は、RGB入力のみを用いて高速かつ正確な単眼シーン再構築を実現する幾何学的ガウスSLAMシステムである。
既存のニューラルSLAM法よりも大幅に改善され,RGB-D法を上回り,再現性もレンダリング性も向上した。
論文 参考訳(メタデータ) (2024-11-27T01:39:21Z) - IG-SLAM: Instant Gaussian SLAM [6.228980850646457]
3D Gaussian SplattingはSLAMシステムにおける代替シーン表現として期待できる結果を示した。
本稿では,RGBのみの高密度SLAMシステムであるIG-SLAMについて述べる。
我々は、最先端のRGBのみのSLAMシステムと競合する性能を示し、高速な動作速度を実現する。
論文 参考訳(メタデータ) (2024-08-02T09:07:31Z) - Splat-SLAM: Globally Optimized RGB-only SLAM with 3D Gaussians [87.48403838439391]
3D Splattingは、RGBのみの高密度SLAMの幾何学と外観の強力な表現として登場した。
本稿では,高密度な3次元ガウス写像表現を持つRGBのみのSLAMシステムを提案する。
Replica、TUM-RGBD、ScanNetのデータセットに対する実験は、グローバルに最適化された3Dガウスの有効性を示している。
論文 参考訳(メタデータ) (2024-05-26T12:26:54Z) - GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D
Pretraining from Real-World Data [73.06536202251915]
ポイントクラウドとして表される3D形状は、画像と言語記述を整列させるために、マルチモーダル事前トレーニングの進歩を実現している。
GS-CLIPは,3D表現を向上させるために,マルチモーダル事前学習に3DGSを導入するための最初の試みである。
論文 参考訳(メタデータ) (2024-02-09T05:46:47Z) - SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM [48.190398577764284]
SplaTAMは、単一のRGB-Dカメラからの高忠実度再構成を可能にするアプローチである。
基礎となるガウス表現に合わせて、単純なオンライントラッキングとマッピングシステムを採用している。
実験により,SplaTAMはカメラポーズ推定,マップ構築,既存手法に対する新規ビュー合成において最大2倍の性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-12-04T18:53:24Z) - GS-IR: 3D Gaussian Splatting for Inverse Rendering [71.14234327414086]
3次元ガウス散乱(GS)に基づく新しい逆レンダリング手法GS-IRを提案する。
我々は、未知の照明条件下で撮影された多視点画像からシーン形状、表面物質、環境照明を推定するために、新しいビュー合成のための最高のパフォーマンス表現であるGSを拡張した。
フレキシブルかつ表現力のあるGS表現は、高速かつコンパクトな幾何再構成、フォトリアリスティックな新規ビュー合成、有効物理ベースレンダリングを実現する。
論文 参考訳(メタデータ) (2023-11-26T02:35:09Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。
提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。