論文の概要: OpenMonoGS-SLAM: Monocular Gaussian Splatting SLAM with Open-set Semantics
- arxiv url: http://arxiv.org/abs/2512.08625v1
- Date: Tue, 09 Dec 2025 14:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.988937
- Title: OpenMonoGS-SLAM: Monocular Gaussian Splatting SLAM with Open-set Semantics
- Title(参考訳): OpenMonoGS-SLAM:オープンセットセマンティックスを用いた単分子ガウス平滑化SLAM
- Authors: Jisang Yoo, Gyeongjin Kang, Hyun-kyu Ko, Hyeonwoo Yu, Eunbyung Park,
- Abstract要約: オープンセット意味理解を伴う3次元ガウススプラッティング(3DGS)を統一する最初の単分子SLAMフレームワークであるOpenMonoGS-SLAMを提案する。
本手法は,自己指導型学習目的のみに頼って,深度入力や3次元意味基底真理を使わずに動作させる。
- 参考スコア(独自算出の注目度): 18.261860689671582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simultaneous Localization and Mapping (SLAM) is a foundational component in robotics, AR/VR, and autonomous systems. With the rising focus on spatial AI in recent years, combining SLAM with semantic understanding has become increasingly important for enabling intelligent perception and interaction. Recent efforts have explored this integration, but they often rely on depth sensors or closed-set semantic models, limiting their scalability and adaptability in open-world environments. In this work, we present OpenMonoGS-SLAM, the first monocular SLAM framework that unifies 3D Gaussian Splatting (3DGS) with open-set semantic understanding. To achieve our goal, we leverage recent advances in Visual Foundation Models (VFMs), including MASt3R for visual geometry and SAM and CLIP for open-vocabulary semantics. These models provide robust generalization across diverse tasks, enabling accurate monocular camera tracking and mapping, as well as a rich understanding of semantics in open-world environments. Our method operates without any depth input or 3D semantic ground truth, relying solely on self-supervised learning objectives. Furthermore, we propose a memory mechanism specifically designed to manage high-dimensional semantic features, which effectively constructs Gaussian semantic feature maps, leading to strong overall performance. Experimental results demonstrate that our approach achieves performance comparable to or surpassing existing baselines in both closed-set and open-set segmentation tasks, all without relying on supplementary sensors such as depth maps or semantic annotations.
- Abstract(参考訳): 同時ローカライゼーションとマッピング(SLAM)は、ロボット工学、AR/VR、自律システムの基本コンポーネントである。
近年、空間AIへの注目が高まり、SLAMと意味理解を組み合わせることが、インテリジェントな知覚と相互作用を実現する上でますます重要になっている。
最近の取り組みでは、この統合を検討しているが、しばしば深度センサーやクローズドセットセマンティックモデルに依存し、オープンワールド環境でのスケーラビリティと適応性を制限している。
本研究では,OpenMonoGS-SLAMについて述べる。これは3Dガウススプラッティング(3DGS)とオープンセットセマンティック理解を一体化した最初のモノクラーSLAMフレームワークである。
目的を達成するために、視覚幾何学のMASt3Rやオープン語彙意味論のSAMやCLIPなど、Visual Foundation Models(VFM)の最近の進歩を活用しました。
これらのモデルは、さまざまなタスクをまたいだ堅牢な一般化を提供し、正確なモノクロカメラの追跡とマッピングを可能にし、オープンワールド環境におけるセマンティクスの豊富な理解を可能にする。
本手法は,自己指導型学習目的のみに頼って,深度入力や3次元意味基底真理を使わずに動作させる。
さらに,ガウス的意味的特徴マップを効果的に構築する高次元意味的特徴の管理に特化して設計された記憶機構を提案する。
実験の結果,提案手法は,深度マップやセマンティックアノテーションなどの補足型センサを使わずに,クローズドセットとオープンセットのセグメンテーションタスクにおいて,既存のベースラインに匹敵する,あるいは超越する性能を達成できることが示された。
関連論文リスト
- SegSplat: Feed-forward Gaussian Splatting and Open-Set Semantic Segmentation [114.57192386025373]
SegSplatは、高速でフィードフォワードな3D再構成とリッチでオープンなセマンティック理解のギャップを埋めるために設計された、新しいフレームワークである。
この研究は、意味的に認識された3D環境の実践的でオンザフライな生成に向けた重要なステップである。
論文 参考訳(メタデータ) (2025-11-23T10:26:38Z) - LEGO-SLAM: Language-Embedded Gaussian Optimization SLAM [2.0524609401792397]
本稿では、3DGSベースのSLAMシステム内でリアルタイムなオープン語彙マッピングを実現するフレームワークであるLEGO-SLAMを提案する。
提案手法のコアとなるのはシーン適応型エンコーダデコーダで, 高次元言語埋め込みをコンパクトな16次元特徴空間に蒸留する。
LEGO-SLAMは15FPSでオープン語彙機能を提供しながら、競争力のあるマッピング品質とトラッキング精度を実現している。
論文 参考訳(メタデータ) (2025-11-20T08:31:34Z) - SPHERE: Semantic-PHysical Engaged REpresentation for 3D Semantic Scene Completion [52.959716866316604]
カメラベース3Dセマンティックシーンコンプリート(SSC)は自動運転システムにおいて重要な課題である。
本稿では,SPHERE (Semantic-PHysical Engaged Representation) を提案する。
SPHEREは、意味情報と物理的情報の共同利用のためのボクセルとガウス表現を統合している。
論文 参考訳(メタデータ) (2025-09-14T09:07:41Z) - MCOO-SLAM: A Multi-Camera Omnidirectional Object SLAM System [19.16370123474815]
本稿では,MCOO-SLAMを提案する。
我々のアプローチは、オープン語彙意味論で強化された点特徴とオブジェクトレベルのランドマークを統合する。
実世界の大規模な実験により、MCOO-SLAMは正確なローカライゼーションとスケーラブルなオブジェクトレベルのマッピングを実現することが示された。
論文 参考訳(メタデータ) (2025-06-18T12:20:34Z) - GSFF-SLAM: 3D Semantic Gaussian Splatting SLAM via Feature Field [17.57215792490409]
GSFF-SLAMは3次元ガウススプラッティングに基づく新しい意味論的SLAMシステムである。
提案手法は, 様々な2次元先行情報, 特にスパース信号と雑音信号を用いた意味的再構成を支援する。
2D基底真理を利用する場合、GSFF-SLAMは95.03% mIoUで最先端のセマンティックセグメンテーション性能を達成する。
論文 参考訳(メタデータ) (2025-04-28T01:21:35Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。
GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-01T05:19:50Z) - Using Detection, Tracking and Prediction in Visual SLAM to Achieve
Real-time Semantic Mapping of Dynamic Scenarios [70.70421502784598]
RDS-SLAMは、一般的に使用されているIntel Core i7 CPUのみを使用して、動的シナリオのためのオブジェクトレベルでのセマンティックマップをリアルタイムで構築することができる。
我々は, TUM RGB-DデータセットにおけるRDS-SLAMを評価し, 動的シナリオにおいて, RDS-SLAMはフレームあたり30.3msで動作可能であることを示した。
論文 参考訳(メタデータ) (2022-10-10T11:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。