論文の概要: Can Large Vision Language Models Read Maps Like a Human?
- arxiv url: http://arxiv.org/abs/2503.14607v1
- Date: Tue, 18 Mar 2025 18:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:23:58.972519
- Title: Can Large Vision Language Models Read Maps Like a Human?
- Title(参考訳): 巨大な視覚言語は人間のように地図を読むことができるのか?
- Authors: Shuo Xing, Zezhou Sun, Shuangyu Xie, Kaiyuan Chen, Yanjia Huang, Yuping Wang, Jiachen Li, Dezhen Song, Zhengzhong Tu,
- Abstract要約: MapBenchは1600ピクセル以上の空間マップパスで構成されており、100の多様なマップから問題を見つけることができる。
MapBenchでは、LVLMはマップイメージと開始と終了のランドマークを持つクエリを与えられた言語ベースのナビゲーション命令を生成する。
我々はMapBenchがゼロショットプロンプトとCoT(Chain-of-Thought)拡張推論フレームワークの両方において最先端のLVLMに大きく挑戦していることを実証した。
- 参考スコア(独自算出の注目度): 16.81757312518894
- License:
- Abstract: In this paper, we introduce MapBench-the first dataset specifically designed for human-readable, pixel-based map-based outdoor navigation, curated from complex path finding scenarios. MapBench comprises over 1600 pixel space map path finding problems from 100 diverse maps. In MapBench, LVLMs generate language-based navigation instructions given a map image and a query with beginning and end landmarks. For each map, MapBench provides Map Space Scene Graph (MSSG) as an indexing data structure to convert between natural language and evaluate LVLM-generated results. We demonstrate that MapBench significantly challenges state-of-the-art LVLMs both zero-shot prompting and a Chain-of-Thought (CoT) augmented reasoning framework that decomposes map navigation into sequential cognitive processes. Our evaluation of both open-source and closed-source LVLMs underscores the substantial difficulty posed by MapBench, revealing critical limitations in their spatial reasoning and structured decision-making capabilities. We release all the code and dataset in https://github.com/taco-group/MapBench.
- Abstract(参考訳): 本稿では、複雑な経路探索シナリオから算出した、人間の可読で画素ベースの屋外ナビゲーション用に設計された最初のデータセットであるMapBenchを紹介する。
MapBenchは1600ピクセル以上の空間マップパスで構成されており、100の多様なマップから問題を見つけることができる。
MapBenchでは、LVLMはマップイメージと開始と終了のランドマークを持つクエリを与えられた言語ベースのナビゲーション命令を生成する。
それぞれのマップに対して、MapBenchはインデックスデータ構造としてMap Space Scene Graph(MSSG)を提供し、自然言語の変換とLVLM生成結果の評価を行う。
我々は,地図ナビゲーションを逐次認知プロセスに分解するゼロショットプロンプトとCoT(Chain-of-Thought)拡張推論フレームワークの両方において,MapBenchが最先端のLVLMに大きく挑戦していることを実証した。
オープンソースLVLMとクローズドソースLVLMの両評価は,MapBenchがもたらす重大な難しさを浮き彫りにし,空間的推論と構造化された意思決定能力の限界を明らかにした。
すべてのコードとデータセットをhttps://github.com/taco-group/MapBench.comでリリースします。
関連論文リスト
- TopoSD: Topology-Enhanced Lane Segment Perception with SDMap Prior [70.84644266024571]
我々は、標準定義地図(SDMaps)を見るために知覚モデルを訓練することを提案する。
我々はSDMap要素をニューラル空間マップ表現やインスタンストークンにエンコードし、先行情報のような補完的な特徴を組み込む。
レーンセグメント表現フレームワークに基づいて、モデルはレーン、中心線、およびそれらのトポロジを同時に予測する。
論文 参考訳(メタデータ) (2024-11-22T06:13:42Z) - Tag Map: A Text-Based Map for Spatial Reasoning and Navigation with Large Language Models [15.454856838083511]
大言語モデル(LLM)は、ロボットが共通感覚推論を用いてタスクプランを生成するためのツールとして登場した。
最近の研究は、固定された意味クラスを持つ明示的な写像から暗黙的なオープンな語彙マップへと移行している。
LLMと簡単に統合しながら、数千のセマンティッククラスを表現できる明示的なテキストベースのマップを提案する。
論文 参考訳(メタデータ) (2024-09-23T18:26:19Z) - Enhancing Vectorized Map Perception with Historical Rasterized Maps [37.48510990922406]
我々は,オンラインベクトル化地図知覚を高めるために,低コストな履歴ラスタライズドマップを利用するHRMapNetを提案する。
履歴化された地図は、過去の予測されたベクトル化された結果から容易に構築でき、貴重な補完情報を提供する。
HRMapNetは、ほとんどのオンラインベクトル化マップ認識手法と統合することができる。
論文 参考訳(メタデータ) (2024-09-01T05:22:33Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - Language-enhanced RNR-Map: Querying Renderable Neural Radiance Field
maps with natural language [51.805056586678184]
自然言語クエリプロンプトを用いた視覚ナビゲーションのための言語拡張型Renderable Neural Radiance Mapを提案する。
Le-RNR-Mapは、各ピクセルに配置された遅延符号からなるグリッド構造を用いる。
CLIPをベースとした埋め込みコードによりRNRマップを強化し,ラベルデータを追加せずに自然言語検索を可能にする。
論文 参考訳(メタデータ) (2023-08-17T08:27:01Z) - Grid Cell-Inspired Fragmentation and Recall for Efficient Map Building [29.630483662400444]
本研究では,FARMap(Fragmentation-and-Recall)の概念を大規模空間のマッピングに適用する。
エージェントは、空間の仮定に基づくクラスタリングを通じて局所写像を構築することで、マッピング問題を解決する。
FARMapは動物実験で観察された断片化点を再現することを示した。
論文 参考訳(メタデータ) (2023-07-11T20:40:19Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - Visual Language Maps for Robot Navigation [30.33041779258644]
ナビゲーションエージェントの視覚的観察に対する接地言語は、インターネットスケールのデータに基づいて事前訓練された市販の視覚言語モデルを用いて行うことができる。
実世界の3次元再構成により,事前学習した視覚言語特徴を直接融合する空間地図表現 VLMaps を提案する。
論文 参考訳(メタデータ) (2022-10-11T18:13:20Z) - Long-term Visual Map Sparsification with Heterogeneous GNN [47.12309045366042]
本稿では,環境変化を克服し,将来のローカライゼーションに有用な点を選択することで,地図サイズを同時に削減することを目的とする。
グラフニューラルネットワーク(GNN)の最近の進歩に触発されて,SfMマップを異種グラフとしてモデル化し,GNNを用いて3次元点重要度を推定する最初の研究を提案する。
2つの新しい監督手法が提案されている: 1) トレーニングクエリに基づく将来のローカライゼーションに有用なポイントを選択するためのデータ適合用語、2) スパースポイントをフルマップで選択するためのK-Cover用語。
論文 参考訳(メタデータ) (2022-03-29T01:46:12Z) - An Automatic Approach for Generating Rich, Linked Geo-Metadata from
Historical Map Images [6.962949867017594]
本稿では,歴史地図画像の検索と索引付けの現実的問題に対処するエンド・ツー・エンドのアプローチを提案する。
我々はmapKuratorと呼ばれるシステムでこのアプローチを実装した。
論文 参考訳(メタデータ) (2021-12-03T01:44:38Z) - Rethinking Localization Map: Towards Accurate Object Perception with
Self-Enhancement Maps [78.2581910688094]
本研究は, カテゴリーラベルのみを監督として, 正確な対象位置分布マップと対象境界を抽出する, 新たな自己強調手法を提案する。
特に、提案されたセルフエンハンスメントマップは、ILSVRC上で54.88%の最先端のローカライゼーション精度を達成する。
論文 参考訳(メタデータ) (2020-06-09T12:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。