論文の概要: Dreamland: Controllable World Creation with Simulator and Generative Models
- arxiv url: http://arxiv.org/abs/2506.08006v1
- Date: Mon, 09 Jun 2025 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.111837
- Title: Dreamland: Controllable World Creation with Simulator and Generative Models
- Title(参考訳): Dreamland: シミュレータと生成モデルによる制御可能な世界創造
- Authors: Sicheng Mo, Ziyang Leng, Leon Liu, Weizhen Wang, Honglin He, Bolei Zhou,
- Abstract要約: 大規模ビデオ生成モデルは、動的世界創造のために多様で現実的な視覚コンテンツを合成することができる。
しかし、多くの場合、要素の操作性に欠けており、シーンの編集やAIエージェントの訓練に使用を妨げている。
本研究では,物理シミュレーションの粒度制御と大規模事前学習型生成モデルのフォトリアリスティックコンテンツ出力を組み合わせたハイブリッドワールドジェネレーションフレームワークDreamlandを提案する。
- 参考スコア(独自算出の注目度): 32.427050300421115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale video generative models can synthesize diverse and realistic visual content for dynamic world creation, but they often lack element-wise controllability, hindering their use in editing scenes and training embodied AI agents. We propose Dreamland, a hybrid world generation framework combining the granular control of a physics-based simulator and the photorealistic content output of large-scale pretrained generative models. In particular, we design a layered world abstraction that encodes both pixel-level and object-level semantics and geometry as an intermediate representation to bridge the simulator and the generative model. This approach enhances controllability, minimizes adaptation cost through early alignment with real-world distributions, and supports off-the-shelf use of existing and future pretrained generative models. We further construct a D3Sim dataset to facilitate the training and evaluation of hybrid generation pipelines. Experiments demonstrate that Dreamland outperforms existing baselines with 50.8% improved image quality, 17.9% stronger controllability, and has great potential to enhance embodied agent training. Code and data will be made available.
- Abstract(参考訳): 大規模なビデオ生成モデルは、動的世界創造のために多様で現実的なビジュアルコンテンツを合成することができるが、要素的制御性に欠けることが多く、編集シーンやエボデードAIエージェントの訓練に使用を妨げている。
本研究では,物理シミュレーションの粒度制御と大規模事前学習型生成モデルのフォトリアリスティックコンテンツ出力を組み合わせたハイブリッドワールドジェネレーションフレームワークDreamlandを提案する。
特に、シミュレーションと生成モデルをブリッジする中間表現として、ピクセルレベルとオブジェクトレベルのセマンティクスと幾何学の両方を符号化した階層化された世界抽象化を設計する。
このアプローチは、制御可能性を高め、現実の分布と早期に一致させることで適応コストを最小化し、既存のおよび将来の事前訓練された生成モデルの既製の使用をサポートする。
さらに,ハイブリッド生成パイプラインのトレーニングと評価を容易にするために,D3Simデータセットを構築した。
実験の結果、ドリームランドは50.8%の画質向上、17.9%のコントロール性向上、およびエンボディドエージェントトレーニングの強化など、既存のベースラインを上回っていることが示された。
コードとデータは利用可能になる。
関連論文リスト
- SimWorld: A Unified Benchmark for Simulator-Conditioned Scene Generation via World Model [1.3700170633913733]
本稿では,世界モデルに基づくシミュレーション条件付きシーン生成エンジンを提案する。
実世界のシーンと一致したシミュレーションシステムを構築することで、シミュレーションデータとラベルを世界モデルにおけるデータ生成の条件として、任意のシーンに対して収集することができる。
その結果,これらの画像は下流知覚モデルの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-03-18T06:41:02Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - SimGen: Simulator-conditioned Driving Scene Generation [50.03358485083602]
シミュレーション条件付きシーン生成フレームワークSimGenを紹介する。
SimGenは、シミュレータと現実世界のデータを混ぜることで、多様な運転シーンを生成することを学ぶ。
テキストプロンプトとシミュレータからのレイアウトに基づいて制御性を保ちながら、優れた生成品質と多様性を実現する。
論文 参考訳(メタデータ) (2024-06-13T17:58:32Z) - A Unified Generative Framework for Realistic Lidar Simulation in Autonomous Driving Systems [10.036860459686526]
Lidarは、Autonomous Driving Systemsの知覚センサーの中で広く使われているセンサーである。
深層生成モデルは、現実的な感覚データを合成するための有望な解決策として現れてきた。
本稿では,Lidarシミュレーションの忠実度を高めるための統一的な生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-25T21:55:00Z) - Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - Scalable Modular Synthetic Data Generation for Advancing Aerial Autonomy [2.9005223064604078]
本稿では,自律飛行に適したスケーラブルなAerial Synthetic Data Augmentation (ASDA) フレームワークを提案する。
ASDAは、シーンとデータ拡張を自動的に実行する2つのスクリプト可能なパイプラインを備えた中央データ収集エンジンを拡張している。
多様なデータセットを自動生成する手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-10T04:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。