論文の概要: CapNav: Benchmarking Vision Language Models on Capability-conditioned Indoor Navigation
- arxiv url: http://arxiv.org/abs/2602.18424v1
- Date: Fri, 20 Feb 2026 18:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.416025
- Title: CapNav: Benchmarking Vision Language Models on Capability-conditioned Indoor Navigation
- Title(参考訳): CapNav: 能力条件付き屋内ナビゲーションにおけるビジョン言語モデルのベンチマーク
- Authors: Xia Su, Ruiqi Chen, Benlin Liu, Jingwei Ma, Zonglin Di, Ranjay Krishna, Jon Froehlich,
- Abstract要約: 本稿では,視覚言語モデル(VLM)が複雑な屋内空間をいかにうまくナビゲートできるかを評価するために,CapNav(Capability-Conditioned Navigation)を導入する。
CapNavは5つの代表的人間とロボットのエージェントを定義し、それぞれが物理的次元、移動能力、環境相互作用能力を記述している。
現在のVLMのナビゲーション性能は、モビリティの制約が厳しくなるにつれて急激に低下し、また、最先端モデルでさえ空間次元の推論を必要とする障害物タイプに悩まされている。
- 参考スコア(独自算出の注目度): 34.18391119684099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have shown remarkable progress in Vision-Language Navigation (VLN), offering new possibilities for navigation decision-making that could benefit both robotic platforms and human users. However, real-world navigation is inherently conditioned by the agent's mobility constraints. For example, a sweeping robot cannot traverse stairs, while a quadruped can. We introduce Capability-Conditioned Navigation (CapNav), a benchmark designed to evaluate how well VLMs can navigate complex indoor spaces given an agent's specific physical and operational capabilities. CapNav defines five representative human and robot agents, each described with physical dimensions, mobility capabilities, and environmental interaction abilities. CapNav provides 45 real-world indoor scenes, 473 navigation tasks, and 2365 QA pairs to test if VLMs can traverse indoor environments based on agent capabilities. We evaluate 13 modern VLMs and find that current VLM's navigation performance drops sharply as mobility constraints tighten, and that even state-of-the-art models struggle with obstacle types that require reasoning on spatial dimensions. We conclude by discussing the implications for capability-aware navigation and the opportunities for advancing embodied spatial reasoning in future VLMs. The benchmark is available at https://github.com/makeabilitylab/CapNav
- Abstract(参考訳): Vision-Language Models (VLM) は、VLN(Vision-Language Navigation)において目覚ましい進歩を示しており、ロボットプラットフォームと人間のユーザーの両方に利益をもたらすナビゲーション決定の新しい可能性を提供している。
しかし、現実のナビゲーションはエージェントの移動性制約によって本質的に条件付けられている。
例えば、掃除ロボットは階段を横切ることができず、四足歩行は可能である。
我々は,エージェントの特定の物理的および操作能力を考慮して,VLMが複雑な屋内空間をいかにうまくナビゲートできるかを評価するためのベンチマークであるCapability-Conditioned Navigation(CapNav)を紹介する。
CapNavは5つの代表的人間とロボットエージェントを定義し、それぞれが物理的次元、移動能力、環境相互作用能力で説明されている。
CapNavは45の現実世界の屋内シーン、473のナビゲーションタスク、2365のQAペアを提供し、VLMがエージェント能力に基づいて屋内環境を横断できるかどうかをテストする。
13の近代的VLMを評価し,現在のVLMの航法性能はモビリティの制約が厳しくなるにつれて急激に低下し,また空間次元の推論を必要とする障害物タイプに最先端のモデルでも苦労していることがわかった。
本稿は,機能認識ナビゲーションの意義と,将来のVLMにおける具体的空間推論の進展の可能性について論じる。
ベンチマークはhttps://github.com/makeabilitylab/CapNavで公開されている。
関連論文リスト
- VL-Nav: Real-time Vision-Language Navigation with Spatial Reasoning [11.140494493881075]
低消費電力ロボットに効率的な空間推論を組み込んだ視覚言語ナビゲーション(VL-Nav)システムを提案する。
ロボットを誘導するための単一の画像レベルの特徴類似性に依存する従来の手法とは異なり、本手法は画素単位の視覚言語機能と好奇心駆動探索を統合している。
VL-Navは、全体の成功率86.3%に達し、以前の手法を44.15%上回った。
論文 参考訳(メタデータ) (2025-02-02T21:44:15Z) - Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs [95.8010627763483]
モビリティVLAは、環境理解と長文VLMの常識推論能力を組み合わせた、階層的なビジョン・ランゲージ・アクション(VLA)ナビゲーションポリシーである。
従来未解決であったマルチモーダル命令に対して,モビリティVLAはエンドツーエンドの成功率が高いことを示す。
論文 参考訳(メタデータ) (2024-07-10T15:49:07Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation [23.72290930234063]
NaVidは、ヴィジュアル・アンド・ランゲージナビゲーションのためのビデオベースの大型視覚言語モデル(VLM)である。
NaVidはシミュレーション環境と現実世界で最先端のパフォーマンスを実現し、優れたクロスデータセットとSim2Real転送を実現している。
論文 参考訳(メタデータ) (2024-02-24T16:39:16Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。