論文の概要: OMCL: Open-vocabulary Monte Carlo Localization
- arxiv url: http://arxiv.org/abs/2512.15557v1
- Date: Wed, 17 Dec 2025 16:08:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.39408
- Title: OMCL: Open-vocabulary Monte Carlo Localization
- Title(参考訳): OMCL: オープン語彙モンテカルロのローカライゼーション
- Authors: Evgenii Kruzhkov, Raphael Memmesheimer, Sven Behnke,
- Abstract要約: 本研究では,視覚言語機能を用いてモンテカルロのローカライゼーションを拡張する。
抽象的な視覚言語機能により、観察と異なるモードからの要素のマッピングを関連付けることができる。
- 参考スコア(独自算出の注目度): 16.468655011980843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust robot localization is an important prerequisite for navigation planning. If the environment map was created from different sensors, robot measurements must be robustly associated with map features. In this work, we extend Monte Carlo Localization using vision-language features. These open-vocabulary features enable to robustly compute the likelihood of visual observations, given a camera pose and a 3D map created from posed RGB-D images or aligned point clouds. The abstract vision-language features enable to associate observations and map elements from different modalities. Global localization can be initialized by natural language descriptions of the objects present in the vicinity of locations. We evaluate our approach using Matterport3D and Replica for indoor scenes and demonstrate generalization on SemanticKITTI for outdoor scenes.
- Abstract(参考訳): ロバストロボットのローカライゼーションはナビゲーション計画にとって重要な前提条件である。
環境マップが異なるセンサーから作られた場合、ロボットの計測は地図の特徴としっかりと関連付けられなければならない。
本研究では,視覚言語機能を用いてモンテカルロ局所化を拡張した。
これらのオープンボキャブラリ機能は、カメラのポーズとRGB-D画像やアライメントされた点雲から生成された3Dマップが与えられた場合、視覚的観察の可能性の可能性をしっかりと計算することができる。
抽象的な視覚言語機能により、観察と異なるモードからの要素のマッピングを関連付けることができる。
グローバルなローカライゼーションは、位置付近に存在するオブジェクトの自然言語記述によって初期化することができる。
本研究では,屋内シーンにおけるMatterport3DとReplicaを用いたアプローチを評価し,屋外シーンにおけるSemanticKITTIの一般化を実証する。
関連論文リスト
- VLG-Loc: Vision-Language Global Localization from Labeled Footprint Maps [5.851042749720534]
視覚言語モデル(VLM)は、地図に記録されているランドマークに対して、ロボットの多方向画像観測を探索するために使用される。
次に、モンテカルロのローカライゼーションフレームワーク内でロボットのポーズを特定する。
シミュレーションおよび実世界の小売環境における実験的検証は、既存のスキャンベース手法と比較して、優れた堅牢性を示す。
論文 参考訳(メタデータ) (2025-12-14T18:22:00Z) - A Neural Representation Framework with LLM-Driven Spatial Reasoning for Open-Vocabulary 3D Visual Grounding [78.99798110890157]
Open-vocabulary 3D visual groundingは、自由形式の言語クエリに基づいてターゲットオブジェクトをローカライズすることを目的としている。
既存の言語フィールド手法は、言語クエリにおける空間的関係を利用してインスタンスを正確にローカライズするのに苦労する。
本研究では,大規模言語モデル(LLM)に基づく空間推論を用いたニューラル表現に基づく新しいフレームワークであるSpatialReasonerを提案する。
論文 参考訳(メタデータ) (2025-07-09T10:20:38Z) - Multimodal Spatial Language Maps for Robot Navigation and Manipulation [32.852583241593436]
マルチモーダル空間言語マップは、事前訓練されたマルチモーダル特徴と環境の3次元再構成を融合する空間地図表現である。
視覚言語マップ(VLMaps)と音声視覚言語マップ(AVLMaps)の拡張の2つの例を示す。
これらの機能は、移動ロボットやテーブルトップマニピュレータに拡張され、視覚、オーディオ、空間的手がかりによって案内されるナビゲーションとインタラクションをサポートする。
論文 参考訳(メタデータ) (2025-06-07T17:02:13Z) - FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment [16.987872206495897]
FindAnythingは、視覚言語情報を高密度のボリュームサブマップに組み込むオープンワールドマッピングフレームワークである。
当社のシステムは,MAVなどのリソース制約されたデバイスにデプロイされる最初のシステムである。
論文 参考訳(メタデータ) (2025-04-11T15:12:05Z) - ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning [68.4209681278336]
Open-vocabulary 3D visual grounding and reasoningは、暗黙の言語記述に基づくシーン内のオブジェクトのローカライズを目的としている。
現在の方法は、3Dアノテーションとマスクの提案による微調整に大きく依存しているため、苦労している。
適応グルーピングのための階層型3次元特徴ガウス場を用いたLVLM誘導フレームワークであるReasonGrounderを提案する。
論文 参考訳(メタデータ) (2025-03-30T03:40:35Z) - Pixel Aligned Language Models [94.32841818609914]
我々は、位置を入力または出力として捉えることができる視覚言語モデルを開発した。
位置を入力として取ると、モデルが位置条件付きキャプションを実行し、指定対象または領域のキャプションを生成する。
本モデルでは,人間の注意を反映した画素単語対応キャプションを含むLocalized Narrative データセットを事前学習する。
論文 参考訳(メタデータ) (2023-12-14T18:57:58Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Visual Language Maps for Robot Navigation [30.33041779258644]
ナビゲーションエージェントの視覚的観察に対する接地言語は、インターネットスケールのデータに基づいて事前訓練された市販の視覚言語モデルを用いて行うことができる。
実世界の3次元再構成により,事前学習した視覚言語特徴を直接融合する空間地図表現 VLMaps を提案する。
論文 参考訳(メタデータ) (2022-10-11T18:13:20Z) - Semantic Image Alignment for Vehicle Localization [111.59616433224662]
単眼カメラからのセマンティックセグメンテーションを用いた高密度セマンティックマップにおける車両位置推定手法を提案する。
既存の視覚的ローカライゼーションアプローチとは対照的に、システムは追加のキーポイント機能、手作りのローカライゼーションランドマーク抽出器、高価なLiDARセンサーを必要としない。
論文 参考訳(メタデータ) (2021-10-08T14:40:15Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。