論文の概要: UrbanNav: Learning Language-Guided Urban Navigation from Web-Scale Human Trajectories
- arxiv url: http://arxiv.org/abs/2512.09607v1
- Date: Wed, 10 Dec 2025 12:54:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.523556
- Title: UrbanNav: Learning Language-Guided Urban Navigation from Web-Scale Human Trajectories
- Title(参考訳): UrbanNav: Webスケールの人間軌道から言語誘導型都市ナビゲーションを学習する
- Authors: Yanghong Mei, Yirong Yang, Longteng Guo, Qunbo Wang, Ming-Ming Yu, Xingjian He, Wenjun Wu, Jing Liu,
- Abstract要約: UrbanNavは、様々な都市環境で自由形式の言語指示に従うように、エンボディエージェントを訓練するフレームワークである。
我々のモデルは複雑な都市シナリオに対処するための堅牢なナビゲーションポリシーを学習する。
結果,UrbanNavは既存の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 17.380146582395145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Navigating complex urban environments using natural language instructions poses significant challenges for embodied agents, including noisy language instructions, ambiguous spatial references, diverse landmarks, and dynamic street scenes. Current visual navigation methods are typically limited to simulated or off-street environments, and often rely on precise goal formats, such as specific coordinates or images. This limits their effectiveness for autonomous agents like last-mile delivery robots navigating unfamiliar cities. To address these limitations, we introduce UrbanNav, a scalable framework that trains embodied agents to follow free-form language instructions in diverse urban settings. Leveraging web-scale city walking videos, we develop an scalable annotation pipeline that aligns human navigation trajectories with language instructions grounded in real-world landmarks. UrbanNav encompasses over 1,500 hours of navigation data and 3 million instruction-trajectory-landmark triplets, capturing a wide range of urban scenarios. Our model learns robust navigation policies to tackle complex urban scenarios, demonstrating superior spatial reasoning, robustness to noisy instructions, and generalization to unseen urban settings. Experimental results show that UrbanNav significantly outperforms existing methods, highlighting the potential of large-scale web video data to enable language-guided, real-world urban navigation for embodied agents.
- Abstract(参考訳): 自然言語命令を用いた複雑な都市環境のナビゲーションは、ノイズの多い言語指示、あいまいな空間参照、多様なランドマーク、ダイナミックストリートシーンなど、エンボディエージェントにとって大きな課題となる。
現在のビジュアルナビゲーション手法は通常、シミュレーションやストリート外の環境に限られており、特定の座標や画像のような正確な目標フォーマットに依存していることが多い。
これにより、不慣れな都市を航行するラストマイル配達ロボットのような自律型エージェントの有効性が制限される。
これらの制限に対処するため,様々な都市環境において,エンボディエージェントが自由形式の言語命令に従うように訓練するスケーラブルなフレームワークであるUrbanNavを紹介した。
Webスケールの都市歩行ビデオを活用することで、人間のナビゲーショントラジェクトリと、現実世界のランドマークに接した言語指示を整合させる、スケーラブルなアノテーションパイプラインを開発する。
UrbanNavには1500時間以上のナビゲーションデータと300万のインストラクションとランドマークのトリプルが含まれており、幅広い都市シナリオを捉えている。
我々のモデルは複雑な都市シナリオに対処するための堅牢なナビゲーションポリシーを学習し、より優れた空間的推論、ノイズの多い指示に対する堅牢性、そして目に見えない都市環境への一般化を示す。
実験の結果,UrbanNavは既存の手法よりも優れており,エンボディエージェントの言語誘導で現実の都市ナビゲーションを可能にする大規模Webビデオデータの可能性を強調している。
関連論文リスト
- UrbanVLA: A Vision-Language-Action Model for Urban Micromobility [29.195408718461845]
都市マイクロモビリティの応用は、大規模な都市環境を横断する信頼性の高いナビゲーションを必要とする。
スケーラブルな都市ナビゲーションのためのフレームワークであるUrbanVLAを提案する。
メタウルバンにおけるSocialNavタスクでは,UrbanVLAが55%以上,強いベースラインを越えていることを示す。
論文 参考訳(メタデータ) (2025-10-27T17:46:43Z) - UrbanVerse: Scaling Urban Simulation by Watching City-Tour Videos [64.22243628420799]
クラウドソーシングされた都市間ビデオから物理を意識したインタラクティブなシミュレーションシーンに変換する,データ駆動型リアルタイムシミュレーションシステムであるUrbanVerseを紹介した。
アイザックシムで運営されているUrbanVerseは、24か国から160の高品質なシーンを提供している。
実験により、UrbanVerseのシーンは現実世界のセマンティクスとレイアウトを保存し、手作業によるシーンに匹敵する人間評価されたリアリズムを達成することが示されている。
論文 参考訳(メタデータ) (2025-10-16T17:42:34Z) - Learning to Drive Anywhere with Model-Based Reannotation [49.80796496905606]
ロボットの視覚ナビゲーションポリシーを一般化するためのフレームワークを開発する。
クラウドソースの遠隔操作データや、ラベルなしのYouTubeビデオなど、受動的に収集されたデータを活用します。
このデータはLogoNavに蒸留される。LogoNavは、視覚的目標やGPSのウェイポイントに照準を合わせられた長い水平航法ポリシーだ。
論文 参考訳(メタデータ) (2025-05-08T18:43:39Z) - CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos [11.912608309403359]
我々は,人間のような都市ナビゲーションのためのスケーラブルでデータ駆動型アプローチを提案する。
われわれは何千時間もの間、何千時間もの街を歩きながらウェブから動画を流すエージェントを訓練している。
我々のモデルは、多様な課題や重要なシナリオを扱うために洗練されたナビゲーションポリシーを学びます。
論文 参考訳(メタデータ) (2024-11-26T19:02:20Z) - CityNav: A Large-Scale Dataset for Real-World Aerial Navigation [25.51740922661166]
航空VLNのための最初の大規模実世界のデータセットであるCityNavを紹介する。
我々のデータセットは32,637人の実証軌道で構成されており、それぞれに自然言語の記述が組み合わされている。
ナビゲーション中に補助的なモダリティ入力として使用できる地理意味マップを作成する方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T12:08:27Z) - A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning [70.14372215250535]
VLN(Vision-and-Language Navigation)の最近の研究は、RLエージェントを訓練して、フォトリアリスティックな環境で自然言語ナビゲーション命令を実行する。
人間の指導データが不足し、訓練環境の多様性が限られていることを考えると、これらのエージェントは複雑な言語基盤と空間言語理解に苦慮している。
我々は、密集した360度パノラマで捉えた500以上の屋内環境を取り、これらのパノラマを通して航法軌道を構築し、各軌道に対して視覚的に接地された指示を生成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きい。
論文 参考訳(メタデータ) (2022-10-06T17:59:08Z) - Multimodal Text Style Transfer for Outdoor Vision-and-Language
Navigation [71.67507925788577]
本稿では,屋外ナビゲーションタスクのためのマルチモーダルテキストスタイル変換(MTST)学習手法を提案する。
まず、Google Maps APIで生成された命令のスタイルを転送し、拡張された外部ナビゲーションデータセットでナビゲータを事前訓練することで、ナビゲーションデータを強化します。
実験結果から, MTST学習手法はモデルに依存しないことが明らかとなり, MTSTアプローチは屋外VLNタスクのベースラインモデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2020-07-01T04:29:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。