論文の概要: SimWorld-Robotics: Synthesizing Photorealistic and Dynamic Urban Environments for Multimodal Robot Navigation and Collaboration
- arxiv url: http://arxiv.org/abs/2512.10046v1
- Date: Wed, 10 Dec 2025 20:04:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.042485
- Title: SimWorld-Robotics: Synthesizing Photorealistic and Dynamic Urban Environments for Multimodal Robot Navigation and Collaboration
- Title(参考訳): SimWorld-Robotics:マルチモーダルロボットナビゲーションと協調のための光現実的・動的都市環境の合成
- Authors: Yan Zhuang, Jiawei Ren, Xiaokang Ye, Jianzhi Shen, Ruixuan Zhang, Tianai Yue, Muhammad Faayez, Xuhong He, Ziqiao Ma, Lianhui Qin, Zhiting Hu, Tianmin Shu,
- Abstract要約: 我々は,大規模でフォトリアリスティックな都市環境において,AIを具現化するシミュレーションプラットフォームであるSimWorld-Roboticsを紹介する。
SWRはUnreal Engine 5上に構築され、歩行者や交通システムといったダイナミックな要素が集まっている無制限の都市シーンを手続き的に生成する。
そこでは、歩行者や交通機関の存在下で目的地に到達するために、ロボットが視覚言語によるナビゲーション指示に従う必要がある。
- 参考スコア(独自算出の注目度): 32.271201714566885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in foundation models have shown promising results in developing generalist robotics that can perform diverse tasks in open-ended scenarios given multimodal inputs. However, current work has been mainly focused on indoor, household scenarios. In this work, we present SimWorld-Robotics~(SWR), a simulation platform for embodied AI in large-scale, photorealistic urban environments. Built on Unreal Engine 5, SWR procedurally generates unlimited photorealistic urban scenes populated with dynamic elements such as pedestrians and traffic systems, surpassing prior urban simulations in realism, complexity, and scalability. It also supports multi-robot control and communication. With these key features, we build two challenging robot benchmarks: (1) a multimodal instruction-following task, where a robot must follow vision-language navigation instructions to reach a destination in the presence of pedestrians and traffic; and (2) a multi-agent search task, where two robots must communicate to cooperatively locate and meet each other. Unlike existing benchmarks, these two new benchmarks comprehensively evaluate a wide range of critical robot capacities in realistic scenarios, including (1) multimodal instructions grounding, (2) 3D spatial reasoning in large environments, (3) safe, long-range navigation with people and traffic, (4) multi-robot collaboration, and (5) grounded communication. Our experimental results demonstrate that state-of-the-art models, including vision-language models (VLMs), struggle with our tasks, lacking robust perception, reasoning, and planning abilities necessary for urban environments.
- Abstract(参考訳): 基礎モデルの最近の進歩は、マルチモーダル入力が与えられたオープンエンドシナリオで多様なタスクを実行できる汎用ロボットの開発において有望な成果を示している。
しかし、現在の研究は主に屋内、家庭のシナリオに焦点を当てている。
本研究では,大規模で光現実的な都市環境において,AIを具現化するシミュレーションプラットフォームであるSimWorld-Robotics~(SWR)を紹介する。
Unreal Engine 5上に構築されたSWRは、歩行者や交通システムといったダイナミックな要素が集まる無制限のフォトリアリスティックな都市シーンをプロシージャで生成する。
マルチボット制御と通信もサポートしている。
これらの特徴を活かして,(1)歩行者や交通機関の存在下で目的地にたどり着くために,ロボットが視覚的なナビゲーション指示を従わなければならないマルチモーダルな指示追従タスク,(2)2つのロボットが協調して位置・出会うために通信しなければならないマルチエージェント検索タスクの2つを構築した。
既存のベンチマークと異なり,これらの2つのベンチマークは,(1)マルチモーダルな指示接地,(2)大規模環境における3次元空間推論,(3)人や交通による安全で長距離なナビゲーション,(4)マルチロボットの協調,(5)接地通信など,現実的なシナリオにおけるロボット能力の幅広い範囲を包括的に評価している。
実験の結果,視覚言語モデル (VLM) を含む最先端のモデルでは,課題への対処,頑健な認識,推論,都市環境に必要な計画能力の欠如が実証された。
関連論文リスト
- The Sound of Simulation: Learning Multimodal Sim-to-Real Robot Policies with Generative Audio [138.07247714782412]
MultiGenは、大規模な生成モデルを従来の物理シミュレータに統合するフレームワークである。
容器や液体を注ぐ現実世界への効果的なゼロショット転送を実証する。
論文 参考訳(メタデータ) (2025-07-03T17:59:58Z) - Towards Autonomous Micromobility through Scalable Urban Simulation [52.749987132021324]
現在のマイクロモビリティは、主に人手操作(対人・遠隔操作)に依存している。
本研究では,自律型マイクロモビリティを実現するため,スケーラブルな都市シミュレーションソリューションを提案する。
論文 参考訳(メタデータ) (2025-05-01T17:52:29Z) - GRAPPA: Generalizing and Adapting Robot Policies via Online Agentic Guidance [15.774237279917594]
本稿では,ロボットによる自己指導と自己改善のためのエージェントフレームワークを提案する。
本フレームワークは,環境中の関連オブジェクトに対して,ベースロボットポリシーを反復的に適用する。
弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:37Z) - GRUtopia: Dream General Robots in a City at Scale [65.08318324604116]
本稿では,各種ロボットを対象とした対話型3D社会「GRUtopia」について紹介する。
GRScenesには100万のインタラクティブな微妙な注釈付きシーンが含まれており、都市規模の環境に自由に組み合わせることができる。
GRResidentsはLarge Language Model (LLM)によって駆動されるNon-Player Character (NPC)システムである。
論文 参考訳(メタデータ) (2024-07-15T17:40:46Z) - Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。
現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。
本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文 参考訳(メタデータ) (2024-07-02T21:00:30Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - SAPIEN: A SimulAted Part-based Interactive ENvironment [77.4739790629284]
SAPIENは現実的で物理に富んだシミュレートされた環境であり、音声オブジェクトのための大規模なセットをホストしている。
部品検出と動作特性認識のための最先端の視覚アルゴリズムの評価を行い,ロボットインタラクションタスクの実証を行った。
論文 参考訳(メタデータ) (2020-03-19T00:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。