論文の概要: LEGO-SLAM: Language-Embedded Gaussian Optimization SLAM
- arxiv url: http://arxiv.org/abs/2511.16144v1
- Date: Thu, 20 Nov 2025 08:31:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.532155
- Title: LEGO-SLAM: Language-Embedded Gaussian Optimization SLAM
- Title(参考訳): LEGO-SLAM:言語を組み込んだガウス最適化SLAM
- Authors: Sibaek Lee, Seongbo Ha, Kyeongsu Kang, Joonyeol Choi, Seungjun Tak, Hyeonwoo Yu,
- Abstract要約: 本稿では、3DGSベースのSLAMシステム内でリアルタイムなオープン語彙マッピングを実現するフレームワークであるLEGO-SLAMを提案する。
提案手法のコアとなるのはシーン適応型エンコーダデコーダで, 高次元言語埋め込みをコンパクトな16次元特徴空間に蒸留する。
LEGO-SLAMは15FPSでオープン語彙機能を提供しながら、競争力のあるマッピング品質とトラッキング精度を実現している。
- 参考スコア(独自算出の注目度): 2.0524609401792397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in 3D Gaussian Splatting (3DGS) have enabled Simultaneous Localization and Mapping (SLAM) systems to build photorealistic maps. However, these maps lack the open-vocabulary semantic understanding required for advanced robotic interaction. Integrating language features into SLAM remains a significant challenge, as storing high-dimensional features demands excessive memory and rendering overhead, while existing methods with static models lack adaptability for novel environments. To address these limitations, we propose LEGO-SLAM (Language-Embedded Gaussian Optimization SLAM), the first framework to achieve real-time, open-vocabulary mapping within a 3DGS-based SLAM system. At the core of our method is a scene-adaptive encoder-decoder that distills high-dimensional language embeddings into a compact 16-dimensional feature space. This design reduces the memory per Gaussian and accelerates rendering, enabling real-time performance. Unlike static approaches, our encoder adapts online to unseen scenes. These compact features also enable a language-guided pruning strategy that identifies semantic redundancy, reducing the map's Gaussian count by over 60\% while maintaining rendering quality. Furthermore, we introduce a language-based loop detection approach that reuses these mapping features, eliminating the need for a separate detection model. Extensive experiments demonstrate that LEGO-SLAM achieves competitive mapping quality and tracking accuracy, all while providing open-vocabulary capabilities at 15 FPS.
- Abstract(参考訳): 近年の3Dガウススプラッティング(3DGS)の進歩により、同時局所化マッピング(SLAM)システムがフォトリアリスティックマップの構築を可能にしている。
しかし、これらの地図は高度なロボットインタラクションに必要なオープン語彙の意味理解を欠いている。
言語機能のSLAMへの統合は、高次元機能の保存には過剰なメモリとレンダリングのオーバーヘッドが必要であり、静的なモデルを持つ既存のメソッドには、新しい環境への適応性がないため、依然として大きな課題である。
これらの制約に対処するため、3DGSベースのSLAMシステムでリアルタイムでオープンな語彙マッピングを実現する最初のフレームワークであるLEGO-SLAM(Language-Embeded Gaussian Optimization SLAM)を提案する。
提案手法のコアとなるのはシーン適応型エンコーダデコーダで, 高次元言語埋め込みをコンパクトな16次元特徴空間に蒸留する。
この設計はガウス単位のメモリを削減し、レンダリングを高速化し、リアルタイムのパフォーマンスを実現する。
静的アプローチとは異なり、エンコーダは目に見えないシーンにオンラインで適応します。
これらのコンパクトな機能は、セマンティックな冗長性を識別する言語誘導プルーニング戦略を可能にし、レンダリング品質を維持しながら、地図のガウス数を60%以上削減する。
さらに、これらのマッピング機能を再利用する言語ベースのループ検出手法を導入し、別個の検出モデルの必要性を排除した。
LEGO-SLAMは15FPSでオープン語彙機能を提供しながら、競争力のあるマッピング品質とトラッキング精度を実現している。
関連論文リスト
- Gen-LangSplat: Generalized Language Gaussian Splatting with Pre-Trained Feature Compression [0.0]
我々は,シーンワイドオートエンコーダを汎用オートエンコーダに置き換えるGen-LangSplatを導入し,大規模ScanNetデータセット上で広範囲に事前トレーニングを行った。
このアーキテクチャシフトにより、シーン固有のトレーニングを必要とせずに、新しいシーンにまたがる言語機能に対して、固定的でコンパクトな潜在空間を使用できるようになる。
以上の結果から,新しい3次元シーンにおけるオープン語彙クエリを効率よく,かつ正確に支援できることが示唆された。
論文 参考訳(メタデータ) (2025-10-27T02:13:38Z) - GaussianVLM: Scene-centric 3D Vision-Language Models using Language-aligned Gaussian Splats for Embodied Reasoning and Beyond [56.677984098204696]
マルチモーダル言語モデルは、VLM(3D Vision-Language Models)の開発を推進している
本稿では,言語とタスク認識のシーン表現を用いた3次元ガウシアンスプラットシーンのためのシーン中心の3次元VLMを提案する。
本稿では,標準RGB画像から導出した光リアルな3D表現を利用した最初のガウススプラッティングに基づくVLMを提案する。
論文 参考訳(メタデータ) (2025-07-01T15:52:59Z) - LODGE: Level-of-Detail Large-Scale Gaussian Splatting with Efficient Rendering [75.67501939005119]
メモリ制約デバイス上での3次元ガウススプラッティングのための新しいレベル・オブ・ディーテール(LOD)法を提案する。
カメラ距離に基づいてガウスの最適部分集合を反復的に選択する。
本手法は,屋外(階層型3DGS)と屋内(Zip-NeRF)の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-05-29T06:50:57Z) - Online Language Splatting [28.066910888210973]
3DGS-SLAMシステム内で、オンライン、ほぼリアルタイムでオープン語彙の言語マッピングを実現するための最初のフレームワークであるOnline Language Splattingを紹介する。
我々のオンライン手法は最先端のオフライン手法を精度良く超え,40倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2025-03-12T14:49:24Z) - SplatLoc: 3D Gaussian Splatting-based Visual Localization for Augmented Reality [50.179377002092416]
より少ないパラメータで高品質なレンダリングが可能な効率的なビジュアルローカライズ手法を提案する。
提案手法は,最先端の暗黙的視覚的ローカライゼーションアプローチに対して,より優れた,あるいは同等なレンダリングとローカライゼーション性能を実現する。
論文 参考訳(メタデータ) (2024-09-21T08:46:16Z) - Hier-SLAM: Scaling-up Semantics in SLAM with a Hierarchically Categorical Gaussian Splatting [28.821276113559346]
本稿では,新しい階層型分類表現を特徴とする意味論的3次元ガウス分割SLAM法であるHier-SLAMを提案する。
我々の MethodName は、マッピングと追跡の精度の両方において、既存の高密度SLAM 法より優れており、2倍の演算高速化を実現している。
複雑な現実世界のシーンを500以上のセマンティッククラスで扱う能力を示し、その価値あるスケールアップ機能を強調している。
論文 参考訳(メタデータ) (2024-09-19T07:18:41Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。