論文の概要: LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation
- arxiv url: http://arxiv.org/abs/2509.05263v2
- Date: Mon, 08 Sep 2025 17:05:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.416155
- Title: LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation
- Title(参考訳): LatticeWorld: インタラクティブな複合世界生成のためのマルチモーダルな大規模言語モデル駆動フレームワーク
- Authors: Yinglin Duan, Zhengxia Zou, Tongwei Gu, Wei Jia, Zhan Zhao, Luyi Xu, Xinzhu Liu, Yenan Lin, Hao Jiang, Kang Chen, Shuang Qiu,
- Abstract要約: 本稿では,3D環境の産業生産パイプラインを効率化する,シンプルで効果的な3Dワールドジェネレーションフレームワークを提案する。
LatticeWorldは、競合するマルチエージェントインタラクションを特徴とする、動的エージェントを備えた大規模な3Dインタラクティブワールドを生成する。
LatticeWorldは90倍以上の工業生産効率の向上を実現している。
- 参考スコア(独自算出の注目度): 35.4193352348583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has been increasingly focusing on developing 3D world models that simulate complex real-world scenarios. World models have found broad applications across various domains, including embodied AI, autonomous driving, entertainment, etc. A more realistic simulation with accurate physics will effectively narrow the sim-to-real gap and allow us to gather rich information about the real world conveniently. While traditional manual modeling has enabled the creation of virtual 3D scenes, modern approaches have leveraged advanced machine learning algorithms for 3D world generation, with most recent advances focusing on generative methods that can create virtual worlds based on user instructions. This work explores such a research direction by proposing LatticeWorld, a simple yet effective 3D world generation framework that streamlines the industrial production pipeline of 3D environments. LatticeWorld leverages lightweight LLMs (LLaMA-2-7B) alongside the industry-grade rendering engine (e.g., Unreal Engine 5) to generate a dynamic environment. Our proposed framework accepts textual descriptions and visual instructions as multimodal inputs and creates large-scale 3D interactive worlds with dynamic agents, featuring competitive multi-agent interaction, high-fidelity physics simulation, and real-time rendering. We conduct comprehensive experiments to evaluate LatticeWorld, showing that it achieves superior accuracy in scene layout generation and visual fidelity. Moreover, LatticeWorld achieves over a $90\times$ increase in industrial production efficiency while maintaining high creative quality compared with traditional manual production methods. Our demo video is available at https://youtu.be/8VWZXpERR18
- Abstract(参考訳): 最近の研究は、複雑な現実世界のシナリオをシミュレートする3Dワールドモデルの開発に注力している。
世界モデルは、エンボディAI、自律運転、エンターテイメントなど、さまざまな分野に広範に応用されている。
正確な物理学によるより現実的なシミュレーションは、シモン・トゥ・リアルのギャップを効果的に狭め、実世界に関する豊富な情報を便利に収集することを可能にする。
従来の手動モデリングは仮想3Dシーンの作成を可能にする一方で、現代のアプローチでは、高度な機械学習アルゴリズムを3Dワールドジェネレーションに活用している。
この研究は、3D環境の産業生産パイプラインを効率化するシンプルで効果的な3DワールドジェネレーションフレームワークであるLatticeWorldを提案することで、そのような研究の方向性を探る。
LatticeWorldは、業界グレードのレンダリングエンジン(例えばUnreal Engine 5)と共に軽量LLM(LLaMA-2-7B)を活用し、動的環境を生成する。
提案フレームワークは,テキスト記述と視覚的指示をマルチモーダル入力として受け入れ,動的エージェントを用いた大規模3次元インタラクティブな世界を作成し,競合するマルチエージェントインタラクション,高忠実度物理シミュレーション,リアルタイムレンダリングを特徴とする。
我々はLatticeWorldを評価するための総合的な実験を行い、シーンレイアウト生成と視覚的忠実度において優れた精度が得られることを示した。
さらに、LatticeWorldは、従来の手作業による生産方法と比較して高い創造的品質を維持しながら、工業生産効率の90\times$上昇を達成する。
私たちのデモビデオはhttps://youtu.be/8VWZXpERR18で公開されています。
関連論文リスト
- Beyond Pixel Histories: World Models with Persistent 3D State [50.4601060508243]
PERSISTは、潜伏した3Dシーンの進化をシミュレートする世界モデルの新たなパラダイムである。
既存の手法に比べて空間記憶,3次元整合性,長期安定性が大幅に向上した。
論文 参考訳(メタデータ) (2026-03-03T19:58:31Z) - Mirage2Matter: A Physically Grounded Gaussian World Model from Video [87.9732484393686]
我々は、グラフィック駆動の世界モデリングおよびシミュレーションフレームワークであるSimulate Anythingを紹介する。
実世界の環境を3次元ガウススプレイティング(3DGS)による写実的シーン表現に再構築する。
次に、生成モデルを利用して、物理的に現実的な表現を復元し、精度校正ターゲットを介してシミュレーション環境に統合する。
論文 参考訳(メタデータ) (2026-01-24T07:43:57Z) - DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling [67.95038177144554]
物理スケールでマルチモーダルな4DワールドモデリングフレームワークであるDynamicVerseを紹介した。
我々は視覚、幾何学、マルチモーダルモデルを用いて、メートルスケールの静的幾何、実世界の動的運動、インスタンスレベルのマスク、そして全体論的キャプションを解釈する。
DynamicVerseは、100K以上のビデオと800K以上の注釈付きマスク、インターネットビデオから10M以上のフレームからなる大規模なデータセットを提供する。
論文 参考訳(メタデータ) (2025-12-02T18:24:27Z) - WorldGen: From Text to Traversable and Interactive 3D Worlds [87.95088818329403]
本稿では,テキストプロンプトから直接,大規模でインタラクティブな3Dワールドを自動生成するシステムWorldGenを紹介する。
我々のアプローチは、自然言語記述を標準のゲームエンジン内で即座に探索または編集できる完全にテクスチャ化された環境に変換する。
この研究は、ゲーム、シミュレーション、没入型社会環境における応用のための3D生成AIのフロンティアを前進させる、アクセス可能で、大規模に生成可能な世界構築への一歩である。
論文 参考訳(メタデータ) (2025-11-20T22:13:18Z) - NeoWorld: Neural Simulation of Explorable Virtual Worlds via Progressive 3D Unfolding [46.79724166827757]
単一入力画像からインタラクティブな3D仮想世界を生成するためのフレームワークであるNeoWorldを紹介する。
SF小説『Simulacron-3』(1964年)のオンデマンド・ワールドビルディングの概念に触発され、我々のシステムは広大な環境を構築する。
論文 参考訳(メタデータ) (2025-09-29T08:24:28Z) - Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation [87.91642226587294]
現在の学習に基づく3D再構成手法は、キャプチャーされた実世界のマルチビューデータに頼っている。
本稿では,ビデオ拡散モデルにおける暗黙的な3次元知識を,明示的な3次元ガウススプラッティング(3DGS)表現に蒸留する自己蒸留フレームワークを提案する。
本フレームワークは静的・動的3次元シーン生成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T17:58:01Z) - HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels [30.986527559921335]
HunyuanWorld 1.0は、テキストと画像の条件から没入的で探索可能なインタラクティブな3Dシーンを生成するための、両方の世界のベストを組み合わせた、新しいフレームワークである。
提案手法の主な利点は,1)パノラマ世界プロキシによる360度没入体験,2)既存のコンピュータグラフィックスパイプラインとのシームレスな互換性を実現するメッシュエクスポート機能,3)対話性向上のためのオブジェクト表現の非拘束化,の3つである。
論文 参考訳(メタデータ) (2025-07-29T13:43:35Z) - Generative AI Framework for 3D Object Generation in Augmented Reality [0.0]
この論文は、最先端の生成AIモデルを統合し、拡張現実(AR)環境で3Dオブジェクトをリアルタイムに作成する。
このフレームワークは、ゲーム、教育、小売、インテリアデザインといった業界にまたがる応用を実証している。
重要な貢献は、3Dモデル作成の民主化であり、高度なAIツールを幅広い聴衆に利用できるようにする。
論文 参考訳(メタデータ) (2025-02-21T17:01:48Z) - UnrealZoo: Enriching Photo-realistic Virtual Worlds for Embodied AI [37.47562766916571]
Unreal Engine上に構築された100以上の写真リアルな3DバーチャルワールドのコレクションであるUnrealZooを紹介します。
私たちはまた、人間、動物、ロボット、そしてAI研究の具体化のための車両を含む、さまざまな遊び可能なエンティティも提供しています。
論文 参考訳(メタデータ) (2024-12-30T14:31:01Z) - GenEx: Generating an Explorable World [59.0666303068111]
我々は、その生成的想像力によって導かれる複雑なエンボディ世界探査を計画できるシステムGenExを紹介する。
GenExは、単一のRGB画像から3D一貫性のある想像環境全体を生成します。
GPT支援エージェントは、ゴールに依存しない探索とゴール駆動ナビゲーションの両方を含む複雑な実施作業を行う。
論文 参考訳(メタデータ) (2024-12-12T18:59:57Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - Self-supervised novel 2D view synthesis of large-scale scenes with
efficient multi-scale voxel carving [77.07589573960436]
実シーンの新たなビューを生成するために,効率的なマルチスケールのボクセル彫刻手法を提案する。
我々の最終的な高解像度出力は、ボクセル彫刻モジュールによって自動的に生成されるデータに基づいて効率よく自己学習される。
実環境における複雑で大規模なシーンにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-06-26T13:57:05Z) - GINA-3D: Learning to Generate Implicit Neural Assets in the Wild [38.51391650845503]
GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。
車両と歩行者の1.2万枚以上の画像を含む大規模オブジェクト中心データセットを構築した。
生成した画像とジオメトリの両面において、品質と多様性の最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2023-04-04T23:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。