論文の概要: CitySeeker: How Do VLMS Explore Embodied Urban Navigation With Implicit Human Needs?
- arxiv url: http://arxiv.org/abs/2512.16755v1
- Date: Thu, 18 Dec 2025 16:53:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.167252
- Title: CitySeeker: How Do VLMS Explore Embodied Urban Navigation With Implicit Human Needs?
- Title(参考訳): CitySeeker:VLMSは不必要な人力による都市交通をどうやって探すのか?
- Authors: Siqi Wang, Chao Liang, Yunfan Gao, Erxin Yu, Sen Li, Yushi Li, Jing Li, Haofen Wang,
- Abstract要約: VLM(Vision-Language Models)は、明示的な命令ベースのナビゲーションにおいて大きな進歩を遂げた。
しかし、ダイナミックな都市環境における暗黙の人間のニーズを解釈する能力は、いまだ解明されていない。
本稿では,VLMの空間的推論と意思決定能力を評価するための新しいベンチマークであるCitySeekerを紹介する。
- 参考スコア(独自算出の注目度): 29.85403919761608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have made significant progress in explicit instruction-based navigation; however, their ability to interpret implicit human needs (e.g., "I am thirsty") in dynamic urban environments remains underexplored. This paper introduces CitySeeker, a novel benchmark designed to assess VLMs' spatial reasoning and decision-making capabilities for exploring embodied urban navigation to address implicit needs. CitySeeker includes 6,440 trajectories across 8 cities, capturing diverse visual characteristics and implicit needs in 7 goal-driven scenarios. Extensive experiments reveal that even top-performing models (e.g., Qwen2.5-VL-32B-Instruct) achieve only 21.1% task completion. We find key bottlenecks in error accumulation in long-horizon reasoning, inadequate spatial cognition, and deficient experiential recall. To further analyze them, we investigate a series of exploratory strategies-Backtracking Mechanisms, Enriching Spatial Cognition, and Memory-Based Retrieval (BCR), inspired by human cognitive mapping's emphasis on iterative observation-reasoning cycles and adaptive path optimization. Our analysis provides actionable insights for developing VLMs with robust spatial intelligence required for tackling "last-mile" navigation challenges.
- Abstract(参考訳): VLM(Vision-Language Models)は、明示的な指示に基づくナビゲーションにおいて大きな進歩を遂げているが、動的な都市環境における暗黙的な人的ニーズ(例えば"I am thirsty")を解釈する能力はいまだに未熟である。
本稿では,VLMの空間的推論と意思決定能力を評価し,暗黙的なニーズに対処するための都市ナビゲーションを探索するための新しいベンチマークであるCitySeekerを紹介する。
CitySeekerには8つの都市に6,440の軌道があり、7つのゴール駆動シナリオにおける多様な視覚的特徴と暗黙的なニーズを捉えている。
大規模な実験の結果、トップパフォーマンスモデル(例えばQwen2.5-VL-32B-Instruct)でさえ21.1%のタスク完了しか達成していないことが明らかになった。
長距離推論や空間認識の不十分,経験的リコールの欠如などにおいて,エラーの蓄積に重要なボトルネックがみられた。
さらに分析するために、人間の認知マッピングが反復的な観察・推論サイクルと適応的な経路最適化に重点を置いていることに触発された、一連の探索的戦略-追跡メカニズム、空間認知の強化、メモリベース検索(BCR)について検討する。
我々の分析は、"ラストマイル"ナビゲーションの課題に取り組むために必要な、堅牢な空間知能を備えたVLMを開発するための実用的な洞察を提供する。
関連論文リスト
- IndustryNav: Exploring Spatial Reasoning of Embodied Agents in Dynamic Industrial Navigation [56.43007596544299]
IndustryNavは、アクティブな空間推論のための最初の動的産業用ナビゲーションベンチマークである。
9つの最先端のVisual Large Language Modelsの研究によると、クローズドソースモデルは一貫した優位性を維持している。
論文 参考訳(メタデータ) (2025-11-21T16:48:49Z) - How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Towards Autonomous UAV Visual Object Search in City Space: Benchmark and Agentic Methodology [26.90429412601702]
都市オブジェクトの自律検索のための最初のベンチマークデータセットであるCityAVOSを紹介する。
このデータセットは、6つのオブジェクトカテゴリにまたがる2,420のタスクで構成され、難易度は様々である。
また,人間の3層認知を模倣したマルチモーダルな大規模言語モデル(MLLM)を用いたエージェント手法であるRPPSearcherを提案する。
論文 参考訳(メタデータ) (2025-05-13T17:34:54Z) - CREStE: Scalable Mapless Navigation with Internet Scale Priors and Counterfactual Guidance [13.922655150502365]
CREStEはスケーラブルな学習ベースのマップレスナビゲーションフレームワークである。
屋外都市航法におけるオープンワールドの一般化とロバストネスの課題に対処する。
CREStEは, 様々な都市, オフロード, 住宅環境において, キロスケールの地図レスナビゲーションの課題について評価する。
論文 参考訳(メタデータ) (2025-03-05T21:42:46Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments [19.818370526976974]
VLN-CE(Vision Language Navigation in Continuous Environments)は、AIのフロンティアである。
本稿では,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。
Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。
論文 参考訳(メタデータ) (2024-09-04T08:30:03Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。