論文の概要: Wanderland: Geometrically Grounded Simulation for Open-World Embodied AI
- arxiv url: http://arxiv.org/abs/2511.20620v1
- Date: Tue, 25 Nov 2025 18:43:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.626241
- Title: Wanderland: Geometrically Grounded Simulation for Open-World Embodied AI
- Title(参考訳): Wanderland: オープンワールドのエボダイドAIのための幾何学的基底シミュレーション
- Authors: Xinhao Liu, Jiaqi Li, Youming Deng, Ruxin Chen, Yingjia Zhang, Yifei Ma, Li Guo, Yiming Li, Jing Zhang, Chen Feng,
- Abstract要約: Wanderlandは、マルチセンサーキャプチャ、信頼性の高い再構築、正確な幾何学、堅牢なビュー合成を特徴とする、リアルタイムのフレームワークである。
我々の研究は、オープンワールドの具体化AIにおける再現可能な研究のための新しい基盤を確立する。
- 参考スコア(独自算出の注目度): 21.49441563502027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reproducible closed-loop evaluation remains a major bottleneck in Embodied AI such as visual navigation. A promising path forward is high-fidelity simulation that combines photorealistic sensor rendering with geometrically grounded interaction in complex, open-world urban environments. Although recent video-3DGS methods ease open-world scene capturing, they are still unsuitable for benchmarking due to large visual and geometric sim-to-real gaps. To address these challenges, we introduce Wanderland, a real-to-sim framework that features multi-sensor capture, reliable reconstruction, accurate geometry, and robust view synthesis. Using this pipeline, we curate a diverse dataset of indoor-outdoor urban scenes and systematically demonstrate how image-only pipelines scale poorly, how geometry quality impacts novel view synthesis, and how all of these adversely affect navigation policy learning and evaluation reliability. Beyond serving as a trusted testbed for embodied navigation, Wanderland's rich raw sensor data further allows benchmarking of 3D reconstruction and novel view synthesis models. Our work establishes a new foundation for reproducible research in open-world embodied AI. Project website is at https://ai4ce.github.io/wanderland/.
- Abstract(参考訳): 再現可能なクローズループ評価は、ビジュアルナビゲーションなど、Embodied AIにおいて依然として大きなボトルネックとなっている。
将来性のある道のりは、フォトリアリスティックなセンサーレンダリングと、複雑なオープンワールドの都市環境における幾何学的に接地された相互作用を組み合わせた高忠実なシミュレーションである。
最近の video-3DGS 法は、オープンワールドのシーンキャプチャを容易にするが、大きな視覚的および幾何学的シミュレート・トゥ・リアルのギャップのため、ベンチマークには適していない。
これらの課題に対処するために、マルチセンサーキャプチャー、信頼性の高い再構築、正確な幾何学、堅牢なビュー合成を特徴とする、リアルタイムのフレームワークであるWanderlandを紹介した。
このパイプラインを用いて、屋内の都市シーンの多様なデータセットをキュレートし、画像のみのパイプラインのスケールの低下、幾何学的品質が新しいビューの合成に与える影響、これらすべてがナビゲーションポリシーの学習と評価の信頼性にどのように悪影響を及ぼすかを体系的に示す。
Wanderlandのリッチな生センサーデータはさらに、3D再構成と新しいビュー合成モデルのベンチマークを可能にする。
我々の研究は、オープンワールドの具体化AIにおける再現可能な研究のための新しい基盤を確立する。
プロジェクトのWebサイトはhttps://ai4ce.github.io/wanderland/にある。
関連論文リスト
- AlignGS: Aligning Geometry and Semantics for Robust Indoor Reconstruction from Sparse Views [18.361136390711415]
屋内シーンのセマンティックにリッチな3Dモデルへの需要は急速に増加しており、拡張現実、仮想現実、ロボット工学の応用によって推進されている。
既存の手法は、しばしば意味論を、既に形成され、潜在的に欠陥のある幾何学に描かれた受動的特徴として扱う。
本稿では、このビジョンを実現する新しいフレームワークであるAlignGSを紹介し、幾何学と意味論の相乗的でエンドツーエンドの最適化を開拓する。
論文 参考訳(メタデータ) (2025-10-09T06:30:20Z) - RaySt3R: Predicting Novel Depth Maps for Zero-Shot Object Completion [49.933001840775816]
RaySt3Rは、新しいビュー合成問題として、3D形状の完成をリキャストする。
フィードフォワード変換器をトレーニングし、深度マップ、オブジェクトマスク、およびクエリ線に対する画素ごとの信頼スコアを予測する。
RaySt3Rは、これらの予測を複数のクエリビューに融合して、完全な3D形状を再構築する。
論文 参考訳(メタデータ) (2025-06-05T17:43:23Z) - AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis [57.249817395828174]
本研究では,3次元都市規模のメッシュからの擬似合成レンダリングと,実地レベルでのクラウドソース画像を組み合わせたスケーラブルなフレームワークを提案する。
擬似合成データは、幅広い空中視点をシミュレートする一方、実際のクラウドソース画像は、地上レベルの画像の視覚的忠実度を改善するのに役立つ。
このハイブリッドデータセットを使用して、いくつかの最先端のアルゴリズムを微調整し、実世界のゼロショット地上作業において大幅な改善を実現する。
論文 参考訳(メタデータ) (2025-04-17T17:57:05Z) - Outdoor Scene Extrapolation with Hierarchical Generative Cellular Automata [70.9375320609781]
我々は,自律走行車(AV)で多量に捕獲された大規模LiDARスキャンから微細な3次元形状を生成することを目指している。
本稿では,空間的にスケーラブルな3次元生成モデルである階層型生成セルオートマトン (hGCA) を提案する。
論文 参考訳(メタデータ) (2024-06-12T14:56:56Z) - MuSHRoom: Multi-Sensor Hybrid Room Dataset for Joint 3D Reconstruction and Novel View Synthesis [26.710960922302124]
実世界のマルチセンサーハイブリッドルームデータセット(MuSHRoom)を提案する。
我々のデータセットは、エキサイティングな課題を示し、最先端の手法がコスト効率が高く、ノイズの多いデータやデバイスに対して堅牢であることを要求する。
共同3Dメッシュ再構成と新しいビュー合成のためのデータセット上で、いくつかの有名なパイプラインをベンチマークする。
論文 参考訳(メタデータ) (2023-11-05T21:46:12Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - GeoSim: Photorealistic Image Simulation with Geometry-Aware Composition [81.24107630746508]
GeoSimは、新しい都市の運転シーンを合成するジオメトリ認識の画像合成プロセスです。
まず、センサーデータからリアルな形状と外観の両方を備えた多様な3Dオブジェクトのバンクを構築します。
得られた合成画像は、フォトリアリズム、トラフィック認識、幾何学的一貫性があり、画像シミュレーションが複雑なユースケースにスケールできる。
論文 参考訳(メタデータ) (2021-01-16T23:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。