論文の概要: Open-Vocabulary Online Semantic Mapping for SLAM
- arxiv url: http://arxiv.org/abs/2411.15043v2
- Date: Mon, 10 Mar 2025 14:44:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:05.176544
- Title: Open-Vocabulary Online Semantic Mapping for SLAM
- Title(参考訳): SLAMのためのオープン語彙オンライン意味マッピング
- Authors: Tomas Berriel Martins, Martin R. Oswald, Javier Civera,
- Abstract要約: 本稿では,Open-Vocabulary Online 3Dセマンティックマッピングパイプラインを提案する。
提案するRGB-Dフレームの列から,CLIPベクトルを用いて記述した3次元セグメントを検出し,追跡する。
我々のOVOは、オフラインのベースラインよりも計算量やメモリフットプリントが大幅に少ない一方で、セグメンテーションの指標も優れている。
- 参考スコア(独自算出の注目度): 21.254743678057356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an Open-Vocabulary Online 3D semantic mapping pipeline, that we denote by its acronym OVO. Given a sequence of posed RGB-D frames, we detect and track 3D segments, which we describe using CLIP vectors. These are computed from the viewpoints where they are observed by a novel CLIP merging method. Notably, our OVO has a significantly lower computational and memory footprint than offline baselines, while also showing better segmentation metrics than them. Along with superior segmentation performance, we also show experimental results of our mapping contributions integrated with two different SLAM backbones (Gaussian-SLAM and ORB-SLAM2), being the first ones demonstrating end-to-end open-vocabulary online 3D reconstructions without relying on ground-truth camera poses or scene geometry.
- Abstract(参考訳): 本稿では,Open-Vocabulary Online 3Dセマンティックマッピングパイプラインを提案する。
提案するRGB-Dフレームの列から,CLIPベクトルを用いて記述した3次元セグメントを検出し,追跡する。
これらは、新しいCLIPマージ法によって観測される視点から計算される。
特に、OVOはオフラインのベースラインよりも計算量やメモリフットプリントが大幅に少なく、セグメンテーションの指標も優れている。
また,2つの異なるSLAMバックボーン(Gaussian-SLAMとORB-SLAM2)を統合したマッピングコントリビューションの実験結果が得られた。
関連論文リスト
- GSFF-SLAM: 3D Semantic Gaussian Splatting SLAM via Feature Field [18.520468059548865]
GSFF-SLAMは3次元ガウススプラッティングに基づく新しい意味論的SLAMシステムである。
提案手法は, 様々な2次元先行情報, 特にスパース信号と雑音信号を用いた意味的再構成を支援する。
2D基底真理を利用する場合、GSFF-SLAMは95.03% mIoUで最先端のセマンティックセグメンテーション性能を達成する。
論文 参考訳(メタデータ) (2025-04-28T01:21:35Z) - PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM [105.01907579424362]
PanoSLAMは、幾何学的再構成、3Dセマンティックセマンティックセマンティクス、3Dインスタンスセマンティクスを統合フレームワークに統合する最初のSLAMシステムである。
初めて、RGB-Dビデオから直接、オープンワールド環境のパノプティカル3D再構成を実現する。
論文 参考訳(メタデータ) (2024-12-31T08:58:10Z) - GLS: Geometry-aware 3D Language Gaussian Splatting [16.13929985676661]
本稿では3DGSに基づく表面再構成と開語彙セグメンテーションの統一的な枠組みを提案する。
室内表面の再構成では,表面の正規化を幾何学的キューとして導入し,通常の誤差を用いて描画深度を最適化する。
オープンボキャブラリセグメンテーションには2D CLIP機能を使用し、インスタンス機能をガイドし、DEVAマスクを使用してビューの一貫性を向上させる。
論文 参考訳(メタデータ) (2024-11-27T05:21:34Z) - Split-and-Fit: Learning B-Reps via Structure-Aware Voronoi Partitioning [50.684254969269546]
本稿では,3次元CADモデルのバウンダリ表現(B-Reps)を取得する新しい手法を提案する。
各パーティション内に1つのプリミティブを導出するために空間分割を適用する。
我々のネットワークはニューラルなボロノイ図でNVD-Netと呼ばれ、訓練データからCADモデルのボロノイ分割を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2024-06-07T21:07:49Z) - Representing 3D sparse map points and lines for camera relocalization [1.2974519529978974]
軽量ニューラルネットワークが3Dポイントとラインの両方の特徴を表現するためにどのように学習できるかを示す。
テストにおいて,本手法は,最先端の学習手法に対する最も顕著な向上を図っている。
論文 参考訳(メタデータ) (2024-02-28T03:07:05Z) - DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。
本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。
実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T21:34:44Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。
提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z) - NEAT: Distilling 3D Wireframes from Neural Attraction Fields [52.90572335390092]
本稿では,3次元再構成セグメントと焦点接合を用いたラインフレーム接合の問題について検討する。
ProjectNEATは、クロスアートマッチングをゼロから行わずに、ジョイントニューラルフィールドとビューを楽しみます。
論文 参考訳(メタデータ) (2023-07-14T07:25:47Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z) - IDLS: Inverse Depth Line based Visual-Inertial SLAM [9.38589798999922]
Inverse Depth Line SLAM (IDLS) を提案する。
IDLSは、複数の知覚的整合性データセットで広く評価されている。
論文 参考訳(メタデータ) (2023-04-23T20:53:05Z) - ESLAM: Efficient Dense SLAM System Based on Hybrid Representation of
Signed Distance Fields [2.0625936401496237]
ESLAMは、未知のカメラポーズでRGB-Dフレームを読み出し、シーン表現を漸進的に再構築する。
ESLAMは3次元再構成の精度を向上し、最先端の高密度視覚SLAM法のカメラローカライゼーションを50%以上向上する。
論文 参考訳(メタデータ) (2022-11-21T18:25:14Z) - Detecting Line Segments in Motion-blurred Images with Events [38.39698414942873]
既存のラインセグメント検出方法は、動きのぼやけが発生したときにラインセグメントを検出する際に、厳しい性能劣化に直面している。
本稿では,画像やイベントの相補的な情報を利用して,動きのぼやけた線分を頑健に検出することを提案する。
提案手法は, FE-Wireframeで事前学習し, FE-Blurframeで微調整したモデルを用いて, 平均構造平均精度(msAP)を63.3%向上させる。
論文 参考訳(メタデータ) (2022-11-14T14:00:03Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - On the descriptive power of LiDAR intensity images for segment-based
loop closing in 3-D SLAM [7.310043452300736]
セグメントの視覚的コンテキストを考慮した記述子を用いたLiDAR SLAMのセグメントベースグローバルローカライゼーション手法の拡張を提案する。
合成LiDAR強度画像から得られる視覚的コンテキストを学習するディープニューラルネットワークの新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-08-03T09:44:23Z) - Tight-Integration of Feature-Based Relocalization in Monocular Direct
Visual Odometry [49.89611704653707]
本稿では,地図に基づく再局在化をオンラインビジュアル・オドメトリーに統合するためのフレームワークを提案する。
我々は画像特徴をDSO(Direct Sparse Odometry)に統合し、オンライン視覚計測と以前に構築された地図を関連付ける機能マッチングに依存する。
論文 参考訳(メタデータ) (2021-02-01T21:41:05Z) - Line Flow based SLAM [36.10943109853581]
本稿では,3次元ラインセグメントの逐次2次元投影を表すラインフローを予測・更新するビジュアルSLAM法を提案する。
提案手法は, ラインフローの利用により, 最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-21T15:55:45Z) - Pseudo RGB-D for Self-Improving Monocular SLAM and Depth Prediction [72.30870535815258]
モノクロ深度予測のためのCNNは、周囲の環境の3Dマップを構築するための2つの大きく不連続なアプローチを表している。
本稿では,CNN予測深度を利用してRGB-D特徴量に基づくSLAMを行う,狭義の広義の自己改善フレームワークを提案する。
一方、より原理化された幾何学的SLAMの3次元シーン構造とカメラポーズは、新しい広義のベースライン損失により奥行きネットワークに注入される。
論文 参考訳(メタデータ) (2020-04-22T16:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。