論文の概要: VLG-Loc: Vision-Language Global Localization from Labeled Footprint Maps
- arxiv url: http://arxiv.org/abs/2512.12793v2
- Date: Thu, 18 Dec 2025 10:25:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.340186
- Title: VLG-Loc: Vision-Language Global Localization from Labeled Footprint Maps
- Title(参考訳): VLG-Loc:ラベル付きフットプリントマップによる視覚言語グローバルローカライゼーション
- Authors: Mizuho Aoki, Kohei Honda, Yasuhiro Yoshimura, Takeshi Ishita, Ryo Yonetani,
- Abstract要約: 視覚言語モデル(VLM)は、地図に記録されているランドマークに対して、ロボットの多方向画像観測を探索するために使用される。
次に、モンテカルロのローカライゼーションフレームワーク内でロボットのポーズを特定する。
シミュレーションおよび実世界の小売環境における実験的検証は、既存のスキャンベース手法と比較して、優れた堅牢性を示す。
- 参考スコア(独自算出の注目度): 5.851042749720534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Vision-Language Global Localization (VLG-Loc), a novel global localization method that uses human-readable labeled footprint maps containing only names and areas of distinctive visual landmarks in an environment. While humans naturally localize themselves using such maps, translating this capability to robotic systems remains highly challenging due to the difficulty of establishing correspondences between observed landmarks and those in the map without geometric and appearance details. To address this challenge, VLG-Loc leverages a vision-language model (VLM) to search the robot's multi-directional image observations for the landmarks noted in the map. The method then identifies robot poses within a Monte Carlo localization framework, where the found landmarks are used to evaluate the likelihood of each pose hypothesis. Experimental validation in simulated and real-world retail environments demonstrates superior robustness compared to existing scan-based methods, particularly under environmental changes. Further improvements are achieved through the probabilistic fusion of visual and scan-based localization.
- Abstract(参考訳): 本稿では,環境中の視覚的ランドマークの名前と領域のみを含む人間可読ラベル付きフットプリントマップを用いた,視覚言語グローバルローカライゼーション(VLG-Loc)を提案する。
人間は自然にそのような地図を使って自分をローカライズするが、この能力をロボットシステムに翻訳することは、観測されたランドマークと地図内のランドマークとの対応を幾何学的・外観的詳細なしで確立することが困難であるため、依然として非常に困難である。
この課題に対処するため、VLG-Locは視覚言語モデル(VLM)を活用して、地図に記録されているランドマークに対して、ロボットの多方向の画像観察を探索する。
この手法はモンテカルロの局所化フレームワーク内でロボットのポーズを識別し、発見されたランドマークを用いて各ポーズ仮説の確率を評価する。
シミュレーションおよび実世界の小売環境における実験的検証は、特に環境変化下では、既存のスキャンベースの方法と比較して、優れた堅牢性を示す。
視覚およびスキャンに基づくローカライゼーションの確率的融合により、さらなる改善が達成される。
関連論文リスト
- Multi-session Localization and Mapping Exploiting Topological Information [1.3316173544577008]
地図に基づくローカライゼーションに基づく新しいマルチセッションフレームワークを提案する。
提案手法にはトポロジインフォームドな不確実性を考慮した意思決定機構が組み込まれている。
提案手法は,データセットから重なり合う配列について検証し,実世界の鉱山のような環境での有効性を実証する。
論文 参考訳(メタデータ) (2026-02-19T10:17:46Z) - OMCL: Open-vocabulary Monte Carlo Localization [16.468655011980843]
本研究では,視覚言語機能を用いてモンテカルロのローカライゼーションを拡張する。
抽象的な視覚言語機能により、観察と異なるモードからの要素のマッピングを関連付けることができる。
論文 参考訳(メタデータ) (2025-12-17T16:08:53Z) - GLEAM: Learning to Match and Explain in Cross-View Geo-Localization [66.11208984986813]
CVGL(Cross-View Geo-Localization)は、同じ地理的位置の異なる視点から撮影された画像間の対応を識別することに焦点を当てている。
GLEAM-Cは、UAV画像、ストリートマップ、パノラマ画像、地上写真を含む複数のビューとモダリティを衛星画像のみに合わせる基本CVGLモデルである。
従来のCVGL手法では解釈可能性の欠如に対処するため,クロスビュー対応予測と説明可能な推論を組み合わせたGLEAM-Xを提案する。
論文 参考訳(メタデータ) (2025-09-09T07:14:31Z) - Towards an Accurate and Effective Robot Vision (The Problem of Topological Localization for Mobile Robots) [0.43064121494080315]
本研究は,ロボットプラットフォームに搭載された視点カラーカメラで取得した画像のみを用いて,オフィス環境におけるトポロジカルローカライゼーションに対処する。
テキスト検索にヒントを得たColor Histograms, SIFT, ASIFT, RGB-SIFT, Bag-of-Visual-Wordsアプローチなど,最先端のビジュアル記述子の評価を行った。
論文 参考訳(メタデータ) (2025-09-05T09:14:59Z) - Exploring Emerging Trends and Research Opportunities in Visual Place Recognition [28.76562316749074]
視覚に基づく認識は、コンピュータビジョンとロボティクスのコミュニティにおける長年の課題である。
ほとんどのローカライズ実装では、視覚的位置認識が不可欠である。
研究者は最近、視覚言語モデルに注意を向けている。
論文 参考訳(メタデータ) (2024-11-18T11:36:17Z) - RING#: PR-by-PE Global Localization with Roto-translation Equivariant Gram Learning [20.688641105430467]
GPS信号が信頼できない場合、グローバルなローカライゼーションは自動運転やロボティクスの応用において不可欠である。
ほとんどのアプローチは、逐次位置認識(PR)とポーズ推定(PE)により、グローバルなローカライゼーションを実現する。
ポーズ推定から直接導出することで、別の場所認識の必要性を回避できる新しいパラダイムであるPR-by-PEローカライゼーションを導入する。
本稿では,鳥眼視(BEV)空間で動作する終端PR-by-PEローカライゼーションネットワークであるRING#を提案する。
論文 参考訳(メタデータ) (2024-08-30T18:42:53Z) - Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information [68.10033984296247]
本稿では, 位置決めの精度を高めるために, 視点選択の重要性を強調し, アクティブな位置決め領域について検討する。
私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
論文 参考訳(メタデータ) (2024-07-22T12:32:09Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - Active Visual Localization for Multi-Agent Collaboration: A Data-Driven Approach [47.373245682678515]
本研究は、視点変化の課題を克服するために、アクティブな視覚的ローカライゼーションをどのように利用できるかを検討する。
具体的には、与えられた場所における最適な視点を選択する問題に焦点をあてる。
その結果,既存の手法と比較して,データ駆動方式の方が優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-04T08:18:30Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。