論文の概要: Grounding World Simulation Models in a Real-World Metropolis
- arxiv url: http://arxiv.org/abs/2603.15583v1
- Date: Mon, 16 Mar 2026 17:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.708368
- Title: Grounding World Simulation Models in a Real-World Metropolis
- Title(参考訳): 実世界都市における地盤シミュレーションモデル
- Authors: Junyoung Seo, Hyunwook Choi, Minkyung Kwon, Jinhyeok Choi, Siyoon Jin, Gayoung Lee, Junho Kim, JoungBin Lee, Geonmo Gu, Dongyoon Han, Sangdoo Yun, Seungryong Kim, Jin-Hwa Kim,
- Abstract要約: 実都市ソウルを基盤とした都市規模の世界モデルであるソウル世界モデル(SWM)を提示する。
SWMは、近くのストリートビュー画像の検索強化条件付けにより、自動回帰ビデオ生成をアンカーする。
我々は、ソウル、釜山、アン・アーバーの3都市における最近のビデオワールドモデルに対してSWMを評価した。
- 参考スコア(独自算出の注目度): 80.10324496369951
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: What if a world simulation model could render not an imagined environment but a city that actually exists? Prior generative world models synthesize visually plausible yet artificial environments by imagining all content. We present Seoul World Model (SWM), a city-scale world model grounded in the real city of Seoul. SWM anchors autoregressive video generation through retrieval-augmented conditioning on nearby street-view images. However, this design introduces several challenges, including temporal misalignment between retrieved references and the dynamic target scene, limited trajectory diversity and data sparsity from vehicle-mounted captures at sparse intervals. We address these challenges through cross-temporal pairing, a large-scale synthetic dataset enabling diverse camera trajectories, and a view interpolation pipeline that synthesizes coherent training videos from sparse street-view images. We further introduce a Virtual Lookahead Sink to stabilize long-horizon generation by continuously re-grounding each chunk to a retrieved image at a future location. We evaluate SWM against recent video world models across three cities: Seoul, Busan, and Ann Arbor. SWM outperforms existing methods in generating spatially faithful, temporally consistent, long-horizon videos grounded in actual urban environments over trajectories reaching hundreds of meters, while supporting diverse camera movements and text-prompted scenario variations.
- Abstract(参考訳): もし世界シミュレーションモデルが、想像された環境ではなく、実際に存在する都市を表現できたらどうだろう?
以前の生成世界モデルは、すべてのコンテンツを想像することで、視覚的に可視だが人工的な環境を合成する。
実都市ソウルを基盤とした都市規模の世界モデルであるソウル世界モデル(SWM)を提示する。
SWMは、近くのストリートビュー画像の検索強化条件付けにより、自動回帰ビデオ生成をアンカーする。
しかし、この設計では、検索された参照と動的ターゲットシーンの時間的ミスアライメント、軌道の多様性の制限、車両に搭載されたキャプチャからのデータの分散など、いくつかの課題が導入されている。
横断的なペアリング,多彩なカメラトラジェクトリを実現する大規模合成データセット,および疎ストリートビュー画像からコヒーレントなトレーニングビデオを合成するビュー補間パイプラインを通じて,これらの課題に対処する。
さらに,各チャンクを検索した画像に連続的に再接地することで,長軸生成の安定化を図る仮想ルックアヘッドシンクを導入する。
我々は、ソウル、釜山、アン・アーバーの3都市における最近のビデオワールドモデルに対してSWMを評価した。
SWMは、空間的に忠実で、時間的に一貫したロングホライゾン動画を実際の都市環境に設置し、数百メートルの軌跡に到達し、多様なカメラの動きとテキストプロンプトシナリオのバリエーションをサポートしながら、既存の手法より優れています。
関連論文リスト
- SceneDiffuser++: City-Scale Traffic Simulation via a Generative World Model [30.561378506172698]
SceneDiffuser++は、都市規模でA-to-Bシミュレーションを行うことができる単一損失関数に基づいて訓練された最初のエンドツーエンド生成世界モデルである。
本研究では,SceneDiffuser++の都市交通シミュレーション能力を実証し,その長大なシミュレーション条件下での優れたリアリズムについて検討する。
論文 参考訳(メタデータ) (2025-06-27T07:35:04Z) - Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。
映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。
この生成は、環境の永続的な3Dマップに集約される。
論文 参考訳(メタデータ) (2025-05-05T17:59:17Z) - SimVS: Simulating World Inconsistencies for Robust View Synthesis [102.83898965828621]
本稿では、生成ビデオモデルを利用して、キャプチャ中に起こりうる世界の不整合をシミュレートする手法を提案する。
我々の世界シミュレーション戦略は、現実のシーンのバリエーションを扱う上で、従来の拡張手法よりも大幅に優れていることを実証する。
論文 参考訳(メタデータ) (2024-12-10T17:35:12Z) - The Matrix: Infinite-Horizon World Generation with Real-Time Moving Control [16.075784652681172]
The Matrixは、連続した720pのリアルタイム映像ストリームを生成することができる最初の基礎的現実的世界シミュレータである。
Matrixは、ユーザーが連続して1時間連続で様々な地形を横断することを可能にする。
Matrixは、BMW X3がオフィス設定で運転する環境をシミュレートすることができる。
論文 参考訳(メタデータ) (2024-12-04T18:59:05Z) - OmniRe: Omni Urban Scene Reconstruction [78.99262488964423]
OmniReはデバイス上でのログから動的現実シーンの高忠実なデジタルツインを作成するための総合システムである。
提案手法は3DGS上にシーングラフを構築し,様々な動的アクターをモデル化する標準空間内に複数のガウス表現を構築する。
論文 参考訳(メタデータ) (2024-08-29T17:56:33Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Future Urban Scenes Generation Through Vehicles Synthesis [90.1731992199415]
本研究では,都市景観の視覚的外観を予測するためのディープラーニングパイプラインを提案する。
ループには解釈可能な情報が含まれ、各アクターは独立してモデル化される。
従来のCityFlowのシーン生成手法に比べて,このアプローチが優れていることを示す。
論文 参考訳(メタデータ) (2020-07-01T08:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。