論文の概要: OVO-SLAM: Open-Vocabulary Online Simultaneous Localization and Mapping
- arxiv url: http://arxiv.org/abs/2411.15043v1
- Date: Fri, 22 Nov 2024 16:25:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 18:36:19.371866
- Title: OVO-SLAM: Open-Vocabulary Online Simultaneous Localization and Mapping
- Title(参考訳): OVO-SLAM: Open-Vocabulary Online Localization and Mapping
- Authors: Tomas Berriel Martins, Martin R. Oswald, Javier Civera,
- Abstract要約: 本稿では,Open-Vocabulary Online 3DセマンティックSLAMパイプラインについて述べる。
CLIPベクターを用いた3Dセグメントの検出と追跡を行い,これらの3Dセグメントが観測される視点から,新しいアグリゲーションによって計算した。
- 参考スコア(独自算出の注目度): 21.254743678057356
- License:
- Abstract: This paper presents the first Open-Vocabulary Online 3D semantic SLAM pipeline, that we denote as OVO-SLAM. Our primary contribution is in the pipeline itself, particularly in the mapping thread. Given a set of posed RGB-D frames, we detect and track 3D segments, which we describe using CLIP vectors, calculated through a novel aggregation from the viewpoints where these 3D segments are observed. Notably, our OVO-SLAM pipeline is not only faster but also achieves better segmentation metrics compared to offline approaches in the literature. Along with superior segmentation performance, we show experimental results of our contributions integrated with Gaussian-SLAM, being the first ones demonstrating end-to-end open-vocabulary online 3D reconstructions without relying on ground-truth camera poses or scene geometry.
- Abstract(参考訳): 本稿では,Open-Vocabulary Online 3DセマンティックSLAMパイプラインについて述べる。
私たちの主なコントリビューションは、パイプライン自体、特にマッピングスレッドにあります。
提案するRGB-Dフレームの集合から,CLIPベクトルを用いた3次元セグメントの検出と追跡を行う。
特に、OVO-SLAMパイプラインは高速であるだけでなく、文学におけるオフラインアプローチに比べてセグメンテーションの指標も向上しています。
より優れたセグメンテーション性能とともに,Gaussian-SLAMと統合されたコントリビューションの実験結果を示す。
関連論文リスト
- LinPrim: Linear Primitives for Differentiable Volumetric Rendering [53.780682194322225]
線形プリミティブ-オクタヘドラとテトラヘドラ-ボスに基づく2つの新しいシーン表現を導入する。
この定式化は、ダウンストリームアプリケーションのオーバーヘッドを最小限にする、標準メッシュベースのツールと自然に一致します。
再現精度を向上するためにプリミティブを減らしながら,最先端のボリューム手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2025-01-27T18:49:38Z) - PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM [105.01907579424362]
PanoSLAMは、幾何学的再構成、3Dセマンティックセマンティックセマンティクス、3Dインスタンスセマンティクスを統合フレームワークに統合する最初のSLAMシステムである。
初めて、RGB-Dビデオから直接、オープンワールド環境のパノプティカル3D再構成を実現する。
論文 参考訳(メタデータ) (2024-12-31T08:58:10Z) - GLS: Geometry-aware 3D Language Gaussian Splatting [16.13929985676661]
本稿では3DGSに基づく表面再構成と開語彙セグメンテーションの統一的な枠組みを提案する。
室内表面の再構成では,表面の正規化を幾何学的キューとして導入し,通常の誤差を用いて描画深度を最適化する。
オープンボキャブラリセグメンテーションには2D CLIP機能を使用し、インスタンス機能をガイドし、DEVAマスクを使用してビューの一貫性を向上させる。
論文 参考訳(メタデータ) (2024-11-27T05:21:34Z) - HI-SLAM2: Geometry-Aware Gaussian SLAM for Fast Monocular Scene Reconstruction [38.47566815670662]
HI-SLAM2は、RGB入力のみを用いて高速かつ正確な単眼シーン再構築を実現する幾何学的ガウスSLAMシステムである。
既存のニューラルSLAM法よりも大幅に改善され,RGB-D法を上回り,再現性もレンダリング性も向上した。
論文 参考訳(メタデータ) (2024-11-27T01:39:21Z) - DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。
本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。
実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T21:34:44Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - NEAT: Distilling 3D Wireframes from Neural Attraction Fields [52.90572335390092]
本稿では,3次元再構成セグメントと焦点接合を用いたラインフレーム接合の問題について検討する。
ProjectNEATは、クロスアートマッチングをゼロから行わずに、ジョイントニューラルフィールドとビューを楽しみます。
論文 参考訳(メタデータ) (2023-07-14T07:25:47Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z) - On the descriptive power of LiDAR intensity images for segment-based
loop closing in 3-D SLAM [7.310043452300736]
セグメントの視覚的コンテキストを考慮した記述子を用いたLiDAR SLAMのセグメントベースグローバルローカライゼーション手法の拡張を提案する。
合成LiDAR強度画像から得られる視覚的コンテキストを学習するディープニューラルネットワークの新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-08-03T09:44:23Z) - Line Flow based SLAM [36.10943109853581]
本稿では,3次元ラインセグメントの逐次2次元投影を表すラインフローを予測・更新するビジュアルSLAM法を提案する。
提案手法は, ラインフローの利用により, 最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-21T15:55:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。