論文の概要: How Far Are Large Multimodal Models from Human-Level Spatial Action? A Benchmark for Goal-Oriented Embodied Navigation in Urban Airspace
- arxiv url: http://arxiv.org/abs/2604.07973v1
- Date: Thu, 09 Apr 2026 08:37:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.808259
- Title: How Far Are Large Multimodal Models from Human-Level Spatial Action? A Benchmark for Goal-Oriented Embodied Navigation in Urban Airspace
- Title(参考訳): 人間レベル空間行動による大規模マルチモーダルモデルの距離 : 都市空域における目標指向型身体的ナビゲーションのベンチマーク
- Authors: Baining Zhao, Ziyou Wang, Jianjie Fang, Zile Zhou, Yanggang Xu, Yatai Ji, Jiacheng Xu, Qian Zhang, Weichen Zhang, Chen Gao, Xinlei Chen,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は、視覚言語学的推論が強いが、空間的決定と行動の能力は未だ不明である。
都市3次元空間における目標指向ナビゲーションにおいて,LMMが人間のような具体的空間行動を実現することができるかどうかを検討する。
実験によると、現在のLMMは新たな行動能力を示すが、人間レベルの性能には及ばない。
- 参考スコア(独自算出の注目度): 27.624616950756643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large multimodal models (LMMs) show strong visual-linguistic reasoning but their capacity for spatial decision-making and action remains unclear. In this work, we investigate whether LMMs can achieve embodied spatial action like human through a challenging scenario: goal-oriented navigation in urban 3D spaces. We first spend over 500 hours constructing a dataset comprising 5,037 high-quality goal-oriented navigation samples, with an emphasis on 3D vertical actions and rich urban semantic information. Then, we comprehensively assess 17 representative models, including non-reasoning LMMs, reasoning LMMs, agent-based methods, and vision-language-action models. Experiments show that current LMMs exhibit emerging action capabilities, yet remain far from human-level performance. Furthermore, we reveal an intriguing phenomenon: navigation errors do not accumulate linearly but instead diverge rapidly from the destination after a critical decision bifurcation. The limitations of LMMs are investigated by analyzing their behavior at these critical decision bifurcations. Finally, we experimentally explore four promising directions for improvement: geometric perception, cross-view understanding, spatial imagination, and long-term memory. The project is available at: https://github.com/serenditipy-AC/Embodied-Navigation-Bench.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、視覚言語学的推論が強いが、空間的決定と行動の能力は未だ不明である。
本研究では,都市3次元空間における目標指向ナビゲーションという課題を通じて,LMMが人間のような具体的空間行動を実現することができるかどうかを検討する。
5,037個の高品質な目標指向ナビゲーションサンプルからなるデータセットの構築に500時間以上を費やした。
そこで我々は,非推論LMM,推論LMM,エージェントベース手法,視覚言語行動モデルを含む17の代表的なモデルを総合的に評価した。
実験によると、現在のLMMは新たな行動能力を示すが、人間レベルの性能には及ばない。
さらに,ナビゲーションエラーが線形に蓄積されるのではなく,臨界決定分岐後の目的地から急速に分岐する,という興味深い現象を明らかにした。
LMMの限界は、これらの臨界決定分岐におけるそれらの挙動を分析することによって調査される。
最後に, 幾何学的知覚, クロスビュー理解, 空間的想像力, 長期記憶の4つの改善方向を実験的に検討した。
このプロジェクトは、https://github.com/serenditipy-AC/Embodied-Navigation-Bench.comで入手できる。
関連論文リスト
- CitySeeker: How Do VLMS Explore Embodied Urban Navigation With Implicit Human Needs? [29.85403919761608]
VLM(Vision-Language Models)は、明示的な命令ベースのナビゲーションにおいて大きな進歩を遂げた。
しかし、ダイナミックな都市環境における暗黙の人間のニーズを解釈する能力は、いまだ解明されていない。
本稿では,VLMの空間的推論と意思決定能力を評価するための新しいベンチマークであるCitySeekerを紹介する。
論文 参考訳(メタデータ) (2025-12-18T16:53:12Z) - Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks [108.15756345836901]
大規模モデルを用いたマルチモーダル空間推論タスクの包括的レビューを行う。
我々は、視覚言語ナビゲーションやアクションモデルを含む、具体的AIの進歩についてレビューする。
我々は,新しいセンサによる空間的理解に寄与する音声やエゴセントリックビデオなどの新たなモダリティを考察する。
論文 参考訳(メタデータ) (2025-10-29T17:55:43Z) - History-Augmented Vision-Language Models for Frontier-Based Zero-Shot Object Navigation [5.343932820859596]
本稿では、動的履歴認識プロンプトの利用を先駆する新しいゼロショットObjectNavフレームワークを提案する。
私たちの中心となるイノベーションは、VLMにアクション履歴コンテキストを提供し、ナビゲーションアクションのセマンティックガイダンススコアを生成することです。
また、検出対象に対する最終アプローチを洗練するためのVLM支援のウェイポイント生成機構も導入する。
論文 参考訳(メタデータ) (2025-06-19T21:50:16Z) - DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation [55.888688171010365]
DORAEMONは、人間のナビゲーション機能を模倣したVentralとDorsal Streamsで構成される、認知にインスパイアされたフレームワークである。
我々は,DORAEMONをHM3D,MP3D,GOATのデータセット上で評価し,成功率(SR)と成功度(SPL)の測定値の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-28T04:46:13Z) - EscapeCraft: A 3D Room Escape Environment for Benchmarking Complex Multimodal Reasoning Ability [11.721839449847472]
マルチモーダル推論のベンチマークであるMM-Escapeを紹介する。
MM-Escapeは最終タスク完了と同時に中間モデル動作を強調している。
大規模な実験により、MLLMはスケールに関係なく、最も単純な部屋の脱出タスクを完了できることが示されている。
性能ボトルネックはモデルによって異なり、異なる障害モードとマルチモーダル推論能力の制限が明らかになる。
論文 参考訳(メタデータ) (2025-03-13T04:48:43Z) - DivScene: Towards Open-Vocabulary Object Navigation with Large Vision Language Models in Diverse Scenes [76.24687327731031]
まず,DivSceneを導入することにより,オープン語彙オブジェクトナビゲーションの課題について検討する。
私たちのデータセットは、既存のデータセットよりもターゲットオブジェクトやシーンタイプがはるかに多様です。
我々はLVLMを微調整し、CoTの説明で次の動作を予測する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。