論文の概要: CityRAG: Stepping Into a City via Spatially-Grounded Video Generation
- arxiv url: http://arxiv.org/abs/2604.19741v1
- Date: Tue, 21 Apr 2026 17:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.919673
- Title: CityRAG: Stepping Into a City via Spatially-Grounded Video Generation
- Title(参考訳): CityRAG:空間的な映像生成で都市に足を踏み入れる
- Authors: Gene Chou, Charles Herrmann, Kyle Genova, Boyang Deng, Songyou Peng, Bharath Hariharan, Jason Y. Zhang, Noah Snavely, Philipp Henzler,
- Abstract要約: 本研究では,空間的に接地した3次元の環境を生成する映像生成モデルCityRAGを提案する。
CityRAGは、時間的に不整合なトレーニングデータに依存している。
実験により、CityRAGは、連続した数分の映像シーケンスを生成し、何千ものフレーム上で天気や照明条件を維持し、ループの閉鎖を達成し、複雑な軌跡をナビゲートし、現実世界の地理を再構築できることを示した。
- 参考スコア(独自算出の注目度): 61.843558834675065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of generating a 3D-consistent, navigable environment that is spatially grounded: a simulation of a real location. Existing video generative models can produce a plausible sequence that is consistent with a text (T2V) or image (I2V) prompt. However, the capability to reconstruct the real world under arbitrary weather conditions and dynamic object configurations is essential for downstream applications including autonomous driving and robotics simulation. To this end, we present CityRAG, a video generative model that leverages large corpora of geo-registered data as context to ground generation to the physical scene, while maintaining learned priors for complex motion and appearance changes. CityRAG relies on temporally unaligned training data, which teaches the model to semantically disentangle the underlying scene from its transient attributes. Our experiments demonstrate that CityRAG can generate coherent minutes-long, physically grounded video sequences, maintain weather and lighting conditions over thousands of frames, achieve loop closure, and navigate complex trajectories to reconstruct real-world geography.
- Abstract(参考訳): そこで本研究では,空間的に接地した3次元一貫したナビゲーション環境(実位置のシミュレーション)を創出する問題に対処する。
既存のビデオ生成モデルは、テキスト(T2V)または画像(I2V)プロンプトと整合した可塑性シーケンスを生成することができる。
しかし、自律運転やロボットシミュレーションを含む下流アプリケーションでは、任意の気象条件や動的物体配置の下で現実世界を再構築する能力が不可欠である。
そこで我々はCityRAGというビデオ生成モデルを提案し、複雑な動きや外見の変化の学習前を保ちながら、ジオ登録データの大量のコーパスをコンテキストとして、物理的シーンに生成する。
CityRAGは、時間的に不整合なトレーニングデータに依存している。
実験により、CityRAGは、連続した数分の映像シーケンスを生成し、何千ものフレーム上で天気や照明条件を維持し、ループの閉鎖を達成し、複雑な軌跡をナビゲートし、現実世界の地理を再構築できることを示した。
関連論文リスト
- Lyra 2.0: Explorable Generative 3D Worlds [77.45279013687427]
Lyra 2.0は、永続的で探索可能な3D世界を大規模に生成するためのフレームワークです。
空間的忘れに対処するため、フレームごとの3D形状を維持し、情報ルーティングのみに使用します。
自己拡張された履歴をトレーニングして、モデルを自身の劣化した出力に公開し、それを伝播するのではなく、ドリフトを正すように教えます。
論文 参考訳(メタデータ) (2026-04-14T17:59:44Z) - Grounding World Simulation Models in a Real-World Metropolis [80.10324496369951]
実都市ソウルを基盤とした都市規模の世界モデルであるソウル世界モデル(SWM)を提示する。
SWMは、近くのストリートビュー画像の検索強化条件付けにより、自動回帰ビデオ生成をアンカーする。
我々は、ソウル、釜山、アン・アーバーの3都市における最近のビデオワールドモデルに対してSWMを評価した。
論文 参考訳(メタデータ) (2026-03-16T17:46:04Z) - Coarse-to-Real: Generative Rendering for Populated Dynamic Scenes [22.450051108066216]
本稿では,C2R(Coarse-to-Real)について述べる。
提案手法では, シーンレイアウト, カメラモーション, 人体軌跡を明瞭に制御するために, 粗い3次元レンダリングを用いる。
最小限の3D入力から、時間的に一貫性があり、コントロール可能で、リアルな都市シーンビデオを生成する。
論文 参考訳(メタデータ) (2026-01-29T20:29:04Z) - Mirage2Matter: A Physically Grounded Gaussian World Model from Video [87.9732484393686]
我々は、グラフィック駆動の世界モデリングおよびシミュレーションフレームワークであるSimulate Anythingを紹介する。
実世界の環境を3次元ガウススプレイティング(3DGS)による写実的シーン表現に再構築する。
次に、生成モデルを利用して、物理的に現実的な表現を復元し、精度校正ターゲットを介してシミュレーション環境に統合する。
論文 参考訳(メタデータ) (2026-01-24T07:43:57Z) - Learning 3D-Gaussian Simulators from RGB Videos [20.250137125726265]
3DGSimは学習した3Dシミュレータで、マルチビューのRGBビデオから物理的相互作用を学習する。
3Dシーンの再構成、粒子動力学予測、ビデオ合成をエンドツーエンドのトレーニングフレームワークに統合する。
論文 参考訳(メタデータ) (2025-03-31T12:33:59Z) - Stag-1: Towards Realistic 4D Driving Simulation with Video Generation Model [83.31688383891871]
本稿では,現実世界のシーンを再現するために,DrivinG(Stag-1)モデルのための空間-テンポラル・シミュレートを提案する。
Stag-1は、自動運転車のサラウンドビューデータを使用して、連続した4Dポイントのクラウドシーンを構築する。
空間的時間的関係を分離し、コヒーレントな運転ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-06T18:59:56Z) - Urban Scene Diffusion through Semantic Occupancy Map [49.20779809250597]
UrbanDiffusionは、Bird's-Eye View (BEV)マップに条件付き3次元拡散モデルである。
我々のモデルは,潜在空間内のシーンレベルの構造の分布を学習する。
実世界の運転データセットをトレーニングした後、我々のモデルは多様な都市シーンを生成することができる。
論文 参考訳(メタデータ) (2024-03-18T11:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。