論文の概要: HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds
- arxiv url: http://arxiv.org/abs/2604.14268v1
- Date: Wed, 15 Apr 2026 17:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:29.960962
- Title: HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds
- Title(参考訳): HY-World 2.0: 3Dワールドの再構成、生成、シミュレーションのためのマルチモーダルワールドモデル
- Authors: Team HY-World, Chenjie Cao, Xuhui Zuo, Zhenwei Wang, Yisu Zhang, Junta Wu, Zhenyang Liu, Yuning Gong, Yang Liu, Bo Yuan, Chao Zhang, Coopers Li, Dongyuan Guo, Fan Yang, Haiyu Zhang, Hang Cao, Jianchen Zhu, Jiaxin Lin, Jie Xiao, Jihong Zhang, Junlin Yu, Lei Wang, Lifu Wang, Lilin Wang, Linus, Minghui Chen, Peng He, Penghao Zhao, Qi Chen, Rui Chen, Rui Shao, Sicong Liu, Wangchen Qin, Xiaochuan Niu, Xiang Yuan, Yi Sun, Yifei Tang, Yifu Sun, Yihang Lian, Yonghao Tan, Yuhong Liu, Yuyang Yin, Zhiyuan Min, Tengfei Wang, Chunchao Guo,
- Abstract要約: HY-World 2.0は、私たちの以前のプロジェクトHYWorld 1.0を前進させるマルチモーダルな世界モデルフレームワークです。
我々はパノラマの忠実性を高め、3Dシーンの理解と計画を可能にし、WorldStereoをアップグレードするための重要なイノベーションを紹介します。
また、フレキシブルなエンジン非依存アーキテクチャを備えた高性能な3DGSレンダリングプラットフォームであるWorldLensを紹介する。
- 参考スコア(独自算出の注目度): 50.80574129942699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce HY-World 2.0, a multi-modal world model framework that advances our prior project HY-World 1.0. HY-World 2.0 accommodates diverse input modalities, including text prompts, single-view images, multi-view images, and videos, and produces 3D world representations. With text or single-view image inputs, the model performs world generation, synthesizing high-fidelity, navigable 3D Gaussian Splatting (3DGS) scenes. This is achieved through a four-stage method: a) Panorama Generation with HY-Pano 2.0, b) Trajectory Planning with WorldNav, c) World Expansion with WorldStereo 2.0, and d) World Composition with WorldMirror 2.0. Specifically, we introduce key innovations to enhance panorama fidelity, enable 3D scene understanding and planning, and upgrade WorldStereo, our keyframe-based view generation model with consistent memory. We also upgrade WorldMirror, a feed-forward model for universal 3D prediction, by refining model architecture and learning strategy, enabling world reconstruction from multi-view images or videos. Also, we introduce WorldLens, a high-performance 3DGS rendering platform featuring a flexible engine-agnostic architecture, automatic IBL lighting, efficient collision detection, and training-rendering co-design, enabling interactive exploration of 3D worlds with character support. Extensive experiments demonstrate that HY-World 2.0 achieves state-of-the-art performance on several benchmarks among open-source approaches, delivering results comparable to the closed-source model Marble. We release all model weights, code, and technical details to facilitate reproducibility and support further research on 3D world models.
- Abstract(参考訳): 私たちは、以前のプロジェクトHY-World 1.0を前進させるマルチモーダルワールドモデルフレームワークHY-World 2.0を紹介します。
HY-World 2.0はテキストプロンプト、シングルビュー画像、マルチビュー画像、ビデオを含む多様な入力モダリティに対応し、3Dワールド表現を生成する。
テキストやシングルビューの画像入力によって、高忠実でナビゲート可能な3Dガウススプラッティング(3DGS)シーンを合成し、ワールドジェネレーションを実行する。
これは4段階の方法によって達成される。
a)HY-Pano 2.0によるパノラマ生成
b)WorldNavによる軌道計画
c)WorldStereo 2.0による世界展開及び
d) WorldMirror 2.0によるワールドコンポジション。
具体的には、パノラマの忠実性を向上し、3Dシーンの理解と計画を可能にし、キーフレームベースのビュー生成モデルであるWorldStereoを一貫したメモリでアップグレードする。
また、モデルアーキテクチャと学習戦略を改良し、マルチビュー画像やビデオから世界再構築を可能にすることで、ユニバーサルな3D予測のためのフィードフォワードモデルであるWorldMirrorをアップグレードする。
また、フレキシブルなエンジン非依存アーキテクチャ、自動IBL照明、効率的な衝突検出、トレーニングレンダリング協調設計を備えた高性能な3DGSレンダリングプラットフォームであるWorldLensを導入し、文字サポート付き3Dワールドのインタラクティブな探索を可能にする。
HY-World 2.0は、オープンソースアプローチのいくつかのベンチマークで最先端のパフォーマンスを達成し、クローズドソースモデルであるMarbleに匹敵する結果をもたらすことを実証している。
再現性を促進し、3Dワールドモデルに関するさらなる研究を支援するため、すべてのモデルウェイト、コード、技術的詳細をリリースする。
関連論文リスト
- WorldAgents: Can Foundation Image Models be Agents for 3D World Models? [82.83725150353915]
2次元モデルが実際に3次元世界の把握をカプセル化していることを実証する。
この理解を生かして,本手法は拡張性,現実性,および3D一貫性のある世界をうまく合成する。
論文 参考訳(メタデータ) (2026-03-20T07:22:41Z) - WorldGen: From Text to Traversable and Interactive 3D Worlds [87.95088818329403]
本稿では,テキストプロンプトから直接,大規模でインタラクティブな3Dワールドを自動生成するシステムWorldGenを紹介する。
我々のアプローチは、自然言語記述を標準のゲームエンジン内で即座に探索または編集できる完全にテクスチャ化された環境に変換する。
この研究は、ゲーム、シミュレーション、没入型社会環境における応用のための3D生成AIのフロンティアを前進させる、アクセス可能で、大規模に生成可能な世界構築への一歩である。
論文 参考訳(メタデータ) (2025-11-20T22:13:18Z) - Terra: Explorable Native 3D World Model with Point Latents [74.90179419859415]
本稿では,本質的な3次元潜伏空間における探索可能な環境を表現・生成する,ネイティブな3次元世界モデルTerraを提案する。
具体的には、3次元入力を潜在点表現に符号化する新しい点対ガウス変分オートエンコーダ(P2G-VAE)を提案する。
次に、潜伏点表現を生成するためのスパース点フローマッチングネットワーク(SPFlow)を導入し、同時に潜伏点の位置と特徴を識別する。
論文 参考訳(メタデータ) (2025-10-16T17:59:56Z) - LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation [35.4193352348583]
本稿では,3D環境の産業生産パイプラインを効率化する,シンプルで効果的な3Dワールドジェネレーションフレームワークを提案する。
LatticeWorldは、競合するマルチエージェントインタラクションを特徴とする、動的エージェントを備えた大規模な3Dインタラクティブワールドを生成する。
LatticeWorldは90倍以上の工業生産効率の向上を実現している。
論文 参考訳(メタデータ) (2025-09-05T17:22:33Z) - HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels [30.986527559921335]
HunyuanWorld 1.0は、テキストと画像の条件から没入的で探索可能なインタラクティブな3Dシーンを生成するための、両方の世界のベストを組み合わせた、新しいフレームワークである。
提案手法の主な利点は,1)パノラマ世界プロキシによる360度没入体験,2)既存のコンピュータグラフィックスパイプラインとのシームレスな互換性を実現するメッシュエクスポート機能,3)対話性向上のためのオブジェクト表現の非拘束化,の3つである。
論文 参考訳(メタデータ) (2025-07-29T13:43:35Z) - FlexWorld: Progressively Expanding 3D Scenes for Flexiable-View Synthesis [61.78754615822363]
単一イメージからフレキシブルな3Dシーンを生成するためのフレームワークであるFlexWorldを紹介します。
我々のV2Vモデルは、大きなカメラポーズのバリエーションの下で、新しいビューを生成することができる。
その上でFlexWorldは新しい3Dコンテンツを徐々に生成し、グローバルなシーンに統合します。
論文 参考訳(メタデータ) (2025-03-17T15:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。