論文の概要: IndustryNav: Exploring Spatial Reasoning of Embodied Agents in Dynamic Industrial Navigation
- arxiv url: http://arxiv.org/abs/2511.17384v1
- Date: Fri, 21 Nov 2025 16:48:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.118384
- Title: IndustryNav: Exploring Spatial Reasoning of Embodied Agents in Dynamic Industrial Navigation
- Title(参考訳): IndustryNav: 動的産業ナビゲーションにおける身体的エージェントの空間的推論
- Authors: Yifan Li, Lichi Li, Anh Dao, Xinyu Zhou, Yicheng Qiao, Zheda Mai, Daeun Lee, Zichen Chen, Zhen Tan, Mohit Bansal, Yu Kong,
- Abstract要約: IndustryNavは、アクティブな空間推論のための最初の動的産業用ナビゲーションベンチマークである。
9つの最先端のVisual Large Language Modelsの研究によると、クローズドソースモデルは一貫した優位性を維持している。
- 参考スコア(独自算出の注目度): 56.43007596544299
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While Visual Large Language Models (VLLMs) show great promise as embodied agents, they continue to face substantial challenges in spatial reasoning. Existing embodied benchmarks largely focus on passive, static household environments and evaluate only isolated capabilities, failing to capture holistic performance in dynamic, real-world complexity. To fill this gap, we present IndustryNav, the first dynamic industrial navigation benchmark for active spatial reasoning. IndustryNav leverages 12 manually created, high-fidelity Unity warehouse scenarios featuring dynamic objects and human movement. Our evaluation employs a PointGoal navigation pipeline that effectively combines egocentric vision with global odometry to assess holistic local-global planning. Crucially, we introduce the "collision rate" and "warning rate" metrics to measure safety-oriented behaviors and distance estimation. A comprehensive study of nine state-of-the-art VLLMs (including models such as GPT-5-mini, Claude-4.5, and Gemini-2.5) reveals that closed-source models maintain a consistent advantage; however, all agents exhibit notable deficiencies in robust path planning, collision avoidance and active exploration. This highlights a critical need for embodied research to move beyond passive perception and toward tasks that demand stable planning, active exploration, and safe behavior in dynamic, real-world environment.
- Abstract(参考訳): Visual Large Language Models (VLLMs) はエンボディエージェントとして大きな可能性を秘めているが、空間的推論において大きな課題に直面し続けている。
既存の実施済みベンチマークは、受動的で静的な家庭環境に重点を置いて、分離された機能のみを評価し、動的で現実世界の複雑さにおける全体的なパフォーマンスを捉えていない。
このギャップを埋めるために、能動的空間推論のための最初の動的産業ナビゲーションベンチマークであるIndustrialNavを提案する。
IndustryNavは、動的オブジェクトと人間の動きを特徴とする、手作業で作られた高忠実なUnity倉庫のシナリオを12種類活用している。
本評価では,egocentric vision と Global odometry を効果的に組み合わせた PointGoal ナビゲーションパイプラインを用いて,局所的局所的計画の評価を行う。
重要なことは、安全志向の行動と距離推定を計測するために、「衝突率」と「警告率」の指標を導入することである。
9つの最先端のVLLM(GPT-5-mini、Claude-4.5、Gemini-2.5などのモデルを含む)に関する包括的な研究は、クローズドソースモデルが一貫した優位性を維持していることを示している。
このことは、受動的知覚を超えて、安定した計画、活発な探索、動的で現実世界の環境における安全な行動を必要とするタスクへと進むための、実施された研究にとって重要な必要性を強調している。
関連論文リスト
- UAV-ON: A Benchmark for Open-World Object Goal Navigation with Aerial Agents [17.86691411018085]
UAV-ONは、オープンワールド環境における航空エージェントによる大規模目標航法(NavObject)のベンチマークである。
多様な意味領域と複雑な空間レイアウトを備えた14の高忠実なUnreal Engine環境で構成されている。
1270のアノテートされたターゲットオブジェクトを定義し、それぞれがカテゴリ、物理フットプリント、視覚ディスクリプタをエンコードするインスタンスレベルの命令によって特徴付けられる。
論文 参考訳(メタデータ) (2025-08-01T03:23:06Z) - NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models [10.671262416557704]
Vision Foundation Models (VFM) は視覚的理解と推論に強力な機能を提供する。
本稿では,VFMの知覚的強度をモデルベースプランナと統合したゼロショットオブジェクトゴールナビゲーションフレームワークを提案する。
本研究では,Habitatシミュレータを用いてHM3Dデータセットに対するアプローチを評価し,提案手法が最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-06-04T03:04:54Z) - HA-VLN 2.0: An Open Benchmark and Leaderboard for Human-Aware Navigation in Discrete and Continuous Environments with Dynamic Multi-Human Interactions [64.69468932145234]
HA-VLN 2.0は、明示的な社会的認識制約を導入した統一ベンチマークである。
その結果、明示的な社会的モデリングはナビゲーションの堅牢性を向上し、衝突を減らすことが示唆された。
論文 参考訳(メタデータ) (2025-03-18T13:05:55Z) - Sonar-based Deep Learning in Underwater Robotics: Overview, Robustness and Challenges [0.46873264197900916]
水中でのソナーの使用は、限られた訓練データと固有のノイズが特徴であり、頑丈さをモデル化する上での課題となっている。
本稿では,分類,物体検出,セグメンテーション,SLAMなどのソナーベース認知タスクモデルについて検討する。
ソナーベースの最先端データセット、シミュレータ、ニューラルネットワーク検証、アウト・オブ・ディストリビューション、敵攻撃などの堅牢性メソッドを体系化する。
論文 参考訳(メタデータ) (2024-12-16T15:03:08Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。