論文の概要: SysNav: Multi-Level Systematic Cooperation Enables Real-World, Cross-Embodiment Object Navigation
- arxiv url: http://arxiv.org/abs/2603.06914v1
- Date: Fri, 06 Mar 2026 22:20:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.019775
- Title: SysNav: Multi-Level Systematic Cooperation Enables Real-World, Cross-Embodiment Object Navigation
- Title(参考訳): SysNav: マルチレベルシステム連携により、実世界のクロスボディーメントオブジェクトナビゲーションが可能に
- Authors: Haokun Zhu, Zongtai Li, Zihan Liu, Kevin Guo, Zhengzhi Lin, Yuxin Cai, Guofei Chen, Chen Lv, Wenshan Wang, Jean Oh, Ji Zhang,
- Abstract要約: 我々は,現実世界のクロスエボデーメント展開のための3レベルObjectNavシステムであるSysNavを紹介する。
SysNavはセマンティック推論、ナビゲーション計画、モーションコントロールを分離し、堅牢性と一般化性を保証する。
本システムは,成功率と航法効率の両面で大幅に向上する。
- 参考スコア(独自算出の注目度): 46.34939555586507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object navigation (ObjectNav) in real-world environments is a complex problem that requires simultaneously addressing multiple challenges, including complex spatial structure, long-horizon planning and semantic understanding. Recent advances in Vision-Language Models (VLMs) offer promising capabilities for semantic understanding, yet effectively integrating them into real-world navigation systems remains a non-trivial challenge. In this work, we formulate real-world ObjectNav as a system-level problem and introduce SysNav, a three-level ObjectNav system designed for real-world crossembodiment deployment. SysNav decouples semantic reasoning, navigation planning and motion control to ensure robustness and generalizability. At the high-level, we summarize the environment into a structured scene representation and leverage VLMs to provide semantic-grounded navigation guidance. At the mid-level, we introduce a hierarchical room-based navigation strategy that reserves VLM guidance for room-level decisions, which effectively utilizes its reasoning ability while ensuring system efficiency. At the low-level, planned waypoints are executed through different embodiment-specific motion control modules. We deploy our system on three embodiments, a custom-built wheeled robot, the Unitree Go2 quadruped and the Unitree G1 humanoid, and conduct 190 real-world experiments. Our system achieves substantial improvements in both success rate and navigation efficiency. To the best of our knowledge, SysNav is the first system capable of reliably and efficiently completing building-scale long-range object navigation in complex real-world environments. Furthermore, extensive experiments on four simulation benchmarks demonstrate state-of-the-art performance. Project page is available at: https://cmu-vln.github.io/.
- Abstract(参考訳): 現実環境におけるオブジェクトナビゲーション(ObjectNav)は、複雑な空間構造、長期計画、意味的理解など、複数の課題に同時に対処する必要がある複雑な問題である。
近年のVLM(Vision-Language Models)の進歩はセマンティック理解に有望な能力を提供しているが、現実のナビゲーションシステムに効果的に統合することは難しい課題である。
本研究では,現実のObjectNavをシステムレベルの問題として定式化し,現実のクロスボデーメント展開用に設計された3レベルObjectNavシステムであるSysNavを紹介する。
SysNavはセマンティック推論、ナビゲーション計画、モーションコントロールを分離し、堅牢性と一般化性を保証する。
高レベルでは、環境を構造化されたシーン表現に要約し、VLMを活用してセマンティックグラウンドナビゲーションのガイダンスを提供する。
中間層では,VLM指導を室内レベル決定に活用する階層型ナビゲーション戦略を導入し,その推論能力を有効活用し,システム効率の確保を図る。
低レベルでは、計画されたウェイポイントは、異なるエンボディメント固有のモーションコントロールモジュールを通して実行される。
我々は3つの実施形態、特注の車輪付きロボット、Unitree Go2の四足歩行、Unitree G1のヒューマノイドにシステムを配置し、190の現実世界実験を行った。
本システムは,成功率と航法効率の両面で大幅に向上する。
我々の知る限りでは、SysNavは複雑な現実世界環境における建築規模の長距離航法を確実かつ効率的に完了できる最初のシステムである。
さらに、4つのシミュレーションベンチマークの広範な実験により、最先端の性能が実証された。
プロジェクトページは、https://cmu-vln.github.io/.com/で公開されている。
関連論文リスト
- AgentVLN: Towards Agentic Vision-and-Language Navigation [78.739525400071]
VLN (Vision-and-Language Navigation) は、複雑な自然言語命令を、見えない環境での長距離ナビゲーションに接地するために、エンボディエージェントを必要とする。
本稿では,エッジコンピューティングプラットフォーム上に展開可能な,新規かつ効率的なナビゲーションフレームワークであるAgentVLNを提案する。
論文 参考訳(メタデータ) (2026-03-18T12:43:47Z) - OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。
近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。
多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文 参考訳(メタデータ) (2026-03-05T17:02:22Z) - FOM-Nav: Frontier-Object Maps for Object Goal Navigation [65.76906445210112]
FOM-Navはフロンティアオブジェクトマップと視覚言語モデルによる探索効率を高めるフレームワークである。
FOM-Navをトレーニングするために,実環境から大規模ナビゲーションデータセットを自動構築する。
FOM-NavはMP3DとHM3Dのベンチマーク、特にナビゲーション効率の指標SPLで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-30T18:16:09Z) - A Navigation Framework Utilizing Vision-Language Models [0.0]
VLN(Vision-and-Language Navigation)は、AIを具現化した複雑な課題である。
CLIPやFlamingoのような大規模視覚言語モデル(LVLM)の最近の進歩は、マルチモーダル理解を大幅に改善した。
動作計画から視覚言語理解を分離するモジュラー・プラグ・アンド・プレイナビゲーション・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-11T20:51:58Z) - CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory [39.76840258489023]
航空ビジョン・アンド・ランゲージナビゲーション(VLN)では、ドローンが自然言語の指示を解釈し、複雑な都市環境をナビゲートする必要がある。
都市空域VLNの航法複雑性を著しく低減する大規模言語モデル(LLM)を用いたエージェントである textbfCityNavAgent を提案する。
論文 参考訳(メタデータ) (2025-05-08T20:01:35Z) - SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments [14.179677726976056]
SayNavは、Large Language Models(LLM)からの人間の知識を活用して、複雑なナビゲーションタスクを効率的に一般化する新しいアプローチである。
SayNavは最先端の結果を達成し、成功率の点で強烈な地道的な仮定でオラクルベースのベースラインを8%以上上回ります。
論文 参考訳(メタデータ) (2023-09-08T02:24:37Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object
Navigation [75.13546386761153]
我々は,新しいゼロショットオブジェクトナビゲーション手法であるExploration with Soft Commonsense constraints (ESC)を提案する。
ESCは、事前訓練されたモデルのコモンセンス知識を、ナビゲーション経験のないオープンワールドオブジェクトナビゲーションに転送する。
MP3D, HM3D, RoboTHORのベンチマーク実験により, ESC法はベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-01-30T18:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。