論文の概要: UrbanVLA: A Vision-Language-Action Model for Urban Micromobility
- arxiv url: http://arxiv.org/abs/2510.23576v1
- Date: Mon, 27 Oct 2025 17:46:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.651166
- Title: UrbanVLA: A Vision-Language-Action Model for Urban Micromobility
- Title(参考訳): UrbanVLA: 都市マイクロモビリティのためのビジョンランゲージ・アクションモデル
- Authors: Anqi Li, Zhiyong Wang, Jiazhao Zhang, Minghan Li, Yunpeng Qi, Zhibo Chen, Zhizheng Zhang, He Wang,
- Abstract要約: 都市マイクロモビリティの応用は、大規模な都市環境を横断する信頼性の高いナビゲーションを必要とする。
スケーラブルな都市ナビゲーションのためのフレームワークであるUrbanVLAを提案する。
メタウルバンにおけるSocialNavタスクでは,UrbanVLAが55%以上,強いベースラインを越えていることを示す。
- 参考スコア(独自算出の注目度): 29.195408718461845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Urban micromobility applications, such as delivery robots, demand reliable navigation across large-scale urban environments while following long-horizon route instructions. This task is particularly challenging due to the dynamic and unstructured nature of real-world city areas, yet most existing navigation methods remain tailored to short-scale and controllable scenarios. Effective urban micromobility requires two complementary levels of navigation skills: low-level capabilities such as point-goal reaching and obstacle avoidance, and high-level capabilities, such as route-visual alignment. To this end, we propose UrbanVLA, a route-conditioned Vision-Language-Action (VLA) framework designed for scalable urban navigation. Our method explicitly aligns noisy route waypoints with visual observations during execution, and subsequently plans trajectories to drive the robot. To enable UrbanVLA to master both levels of navigation, we employ a two-stage training pipeline. The process begins with Supervised Fine-Tuning (SFT) using simulated environments and trajectories parsed from web videos. This is followed by Reinforcement Fine-Tuning (RFT) on a mixture of simulation and real-world data, which enhances the model's safety and adaptability in real-world settings. Experiments demonstrate that UrbanVLA surpasses strong baselines by more than 55% in the SocialNav task on MetaUrban. Furthermore, UrbanVLA achieves reliable real-world navigation, showcasing both scalability to large-scale urban environments and robustness against real-world uncertainties.
- Abstract(参考訳): 配送ロボットのような都市マイクロモビリティの応用は、長距離ルートの指示に従いながら、大規模な都市環境を横断する信頼性の高いナビゲーションを必要とする。
このタスクは、現実世界の都市部の動的で非構造的な性質のため、特に難しいが、既存のナビゲーション手法の多くは、短期かつ制御可能なシナリオに合わせたままである。
効果的な都市マイクロモビリティには、ポイントゴールリーチや障害物回避といった低レベルの能力と、ルート・視覚アライメントのような高レベルの能力の2つの相補的なナビゲーションスキルが必要である。
この目的のために,スケーラブルな都市ナビゲーション用に設計されたルート条件付きビジョン・ランゲージ・アクション(VLA)フレームワークであるUrbanVLAを提案する。
提案手法は,実行中の騒音の多いルートポイントと視覚的観察とを明示的に一致させ,その後,ロボットを駆動する軌道を計画する。
UrbanVLAが両方のレベルのナビゲーションをマスターできるようにするために、私たちは2段階のトレーニングパイプラインを使用します。
プロセスは、シミュレーションされた環境とWebビデオから解析された軌跡を使用するSupervised Fine-Tuning (SFT)から始まる。
続いてReinforcement Fine-Tuning (RFT) がシミュレーションと実世界のデータを混在させ、実際の環境におけるモデルの安全性と適応性を高める。
実験によると、UrbanVLAはMetaUrbanのSocialNavタスクで55%以上、強力なベースラインを超えている。
さらに、UrbanVLAは信頼性の高い実世界のナビゲーションを実現し、大規模都市環境へのスケーラビリティと、実世界の不確実性に対する堅牢性を示す。
関連論文リスト
- CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory [39.76840258489023]
航空ビジョン・アンド・ランゲージナビゲーション(VLN)では、ドローンが自然言語の指示を解釈し、複雑な都市環境をナビゲートする必要がある。
都市空域VLNの航法複雑性を著しく低減する大規模言語モデル(LLM)を用いたエージェントである textbfCityNavAgent を提案する。
論文 参考訳(メタデータ) (2025-05-08T20:01:35Z) - Towards Autonomous Micromobility through Scalable Urban Simulation [52.749987132021324]
現在のマイクロモビリティは、主に人手操作(対人・遠隔操作)に依存している。
本研究では,自律型マイクロモビリティを実現するため,スケーラブルな都市シミュレーションソリューションを提案する。
論文 参考訳(メタデータ) (2025-05-01T17:52:29Z) - CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos [11.912608309403359]
我々は,人間のような都市ナビゲーションのためのスケーラブルでデータ駆動型アプローチを提案する。
われわれは何千時間もの間、何千時間もの街を歩きながらウェブから動画を流すエージェントを訓練している。
我々のモデルは、多様な課題や重要なシナリオを扱うために洗練されたナビゲーションポリシーを学びます。
論文 参考訳(メタデータ) (2024-11-26T19:02:20Z) - MetaUrban: An Embodied AI Simulation Platform for Urban Micromobility [52.0930915607703]
最近のロボティクスとエンボディードAIの進歩により、公共の都市空間はもはや人間専用ではない。
公共の都市空間における短距離移動のためのAIによって実現されるマイクロモビリティは、将来の交通システムにおいて重要な要素である。
本稿では,AI駆動型都市マイクロモビリティ研究のための構成シミュレーションプラットフォームであるMetaUrbanを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:56:49Z) - Learning Robust Autonomous Navigation and Locomotion for Wheeled-Legged Robots [50.02055068660255]
都市環境のナビゲーションは、ロボットにとってユニークな課題であり、移動とナビゲーションのための革新的なソリューションを必要としている。
本研究は, 適応移動制御, 移動対応ローカルナビゲーション計画, 市内の大規模経路計画を含む, 完全に統合されたシステムを導入する。
モデルフリー強化学習(RL)技術と特権学習を用いて,多目的移動制御系を開発した。
私たちのコントローラーは大規模な都市航法システムに統合され、スイスのチューリッヒとスペインのセビリアで自律的、キロメートル規模の航法ミッションによって検証されます。
論文 参考訳(メタデータ) (2024-05-03T00:29:20Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。