論文の概要: LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation
- arxiv url: http://arxiv.org/abs/2509.05263v2
- Date: Mon, 08 Sep 2025 17:05:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.416155
- Title: LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation
- Title(参考訳): LatticeWorld: インタラクティブな複合世界生成のためのマルチモーダルな大規模言語モデル駆動フレームワーク
- Authors: Yinglin Duan, Zhengxia Zou, Tongwei Gu, Wei Jia, Zhan Zhao, Luyi Xu, Xinzhu Liu, Yenan Lin, Hao Jiang, Kang Chen, Shuang Qiu,
- Abstract要約: 本稿では,3D環境の産業生産パイプラインを効率化する,シンプルで効果的な3Dワールドジェネレーションフレームワークを提案する。
LatticeWorldは、競合するマルチエージェントインタラクションを特徴とする、動的エージェントを備えた大規模な3Dインタラクティブワールドを生成する。
LatticeWorldは90倍以上の工業生産効率の向上を実現している。
- 参考スコア(独自算出の注目度): 35.4193352348583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has been increasingly focusing on developing 3D world models that simulate complex real-world scenarios. World models have found broad applications across various domains, including embodied AI, autonomous driving, entertainment, etc. A more realistic simulation with accurate physics will effectively narrow the sim-to-real gap and allow us to gather rich information about the real world conveniently. While traditional manual modeling has enabled the creation of virtual 3D scenes, modern approaches have leveraged advanced machine learning algorithms for 3D world generation, with most recent advances focusing on generative methods that can create virtual worlds based on user instructions. This work explores such a research direction by proposing LatticeWorld, a simple yet effective 3D world generation framework that streamlines the industrial production pipeline of 3D environments. LatticeWorld leverages lightweight LLMs (LLaMA-2-7B) alongside the industry-grade rendering engine (e.g., Unreal Engine 5) to generate a dynamic environment. Our proposed framework accepts textual descriptions and visual instructions as multimodal inputs and creates large-scale 3D interactive worlds with dynamic agents, featuring competitive multi-agent interaction, high-fidelity physics simulation, and real-time rendering. We conduct comprehensive experiments to evaluate LatticeWorld, showing that it achieves superior accuracy in scene layout generation and visual fidelity. Moreover, LatticeWorld achieves over a $90\times$ increase in industrial production efficiency while maintaining high creative quality compared with traditional manual production methods. Our demo video is available at https://youtu.be/8VWZXpERR18
- Abstract(参考訳): 最近の研究は、複雑な現実世界のシナリオをシミュレートする3Dワールドモデルの開発に注力している。
世界モデルは、エンボディAI、自律運転、エンターテイメントなど、さまざまな分野に広範に応用されている。
正確な物理学によるより現実的なシミュレーションは、シモン・トゥ・リアルのギャップを効果的に狭め、実世界に関する豊富な情報を便利に収集することを可能にする。
従来の手動モデリングは仮想3Dシーンの作成を可能にする一方で、現代のアプローチでは、高度な機械学習アルゴリズムを3Dワールドジェネレーションに活用している。
この研究は、3D環境の産業生産パイプラインを効率化するシンプルで効果的な3DワールドジェネレーションフレームワークであるLatticeWorldを提案することで、そのような研究の方向性を探る。
LatticeWorldは、業界グレードのレンダリングエンジン(例えばUnreal Engine 5)と共に軽量LLM(LLaMA-2-7B)を活用し、動的環境を生成する。
提案フレームワークは,テキスト記述と視覚的指示をマルチモーダル入力として受け入れ,動的エージェントを用いた大規模3次元インタラクティブな世界を作成し,競合するマルチエージェントインタラクション,高忠実度物理シミュレーション,リアルタイムレンダリングを特徴とする。
我々はLatticeWorldを評価するための総合的な実験を行い、シーンレイアウト生成と視覚的忠実度において優れた精度が得られることを示した。
さらに、LatticeWorldは、従来の手作業による生産方法と比較して高い創造的品質を維持しながら、工業生産効率の90\times$上昇を達成する。
私たちのデモビデオはhttps://youtu.be/8VWZXpERR18で公開されています。
関連論文リスト
- HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels [30.986527559921335]
HunyuanWorld 1.0は、テキストと画像の条件から没入的で探索可能なインタラクティブな3Dシーンを生成するための、両方の世界のベストを組み合わせた、新しいフレームワークである。
提案手法の主な利点は,1)パノラマ世界プロキシによる360度没入体験,2)既存のコンピュータグラフィックスパイプラインとのシームレスな互換性を実現するメッシュエクスポート機能,3)対話性向上のためのオブジェクト表現の非拘束化,の3つである。
論文 参考訳(メタデータ) (2025-07-29T13:43:35Z) - Generative AI Framework for 3D Object Generation in Augmented Reality [0.0]
この論文は、最先端の生成AIモデルを統合し、拡張現実(AR)環境で3Dオブジェクトをリアルタイムに作成する。
このフレームワークは、ゲーム、教育、小売、インテリアデザインといった業界にまたがる応用を実証している。
重要な貢献は、3Dモデル作成の民主化であり、高度なAIツールを幅広い聴衆に利用できるようにする。
論文 参考訳(メタデータ) (2025-02-21T17:01:48Z) - UnrealZoo: Enriching Photo-realistic Virtual Worlds for Embodied AI [37.47562766916571]
Unreal Engine上に構築された100以上の写真リアルな3DバーチャルワールドのコレクションであるUnrealZooを紹介します。
私たちはまた、人間、動物、ロボット、そしてAI研究の具体化のための車両を含む、さまざまな遊び可能なエンティティも提供しています。
論文 参考訳(メタデータ) (2024-12-30T14:31:01Z) - GenEx: Generating an Explorable World [59.0666303068111]
我々は、その生成的想像力によって導かれる複雑なエンボディ世界探査を計画できるシステムGenExを紹介する。
GenExは、単一のRGB画像から3D一貫性のある想像環境全体を生成します。
GPT支援エージェントは、ゴールに依存しない探索とゴール駆動ナビゲーションの両方を含む複雑な実施作業を行う。
論文 参考訳(メタデータ) (2024-12-12T18:59:57Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - Self-supervised novel 2D view synthesis of large-scale scenes with
efficient multi-scale voxel carving [77.07589573960436]
実シーンの新たなビューを生成するために,効率的なマルチスケールのボクセル彫刻手法を提案する。
我々の最終的な高解像度出力は、ボクセル彫刻モジュールによって自動的に生成されるデータに基づいて効率よく自己学習される。
実環境における複雑で大規模なシーンにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-06-26T13:57:05Z) - GINA-3D: Learning to Generate Implicit Neural Assets in the Wild [38.51391650845503]
GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。
車両と歩行者の1.2万枚以上の画像を含む大規模オブジェクト中心データセットを構築した。
生成した画像とジオメトリの両面において、品質と多様性の最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2023-04-04T23:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。