論文の概要: Code2Worlds: Empowering Coding LLMs for 4D World Generation
- arxiv url: http://arxiv.org/abs/2602.11757v1
- Date: Thu, 12 Feb 2026 09:34:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.748037
- Title: Code2Worlds: Empowering Coding LLMs for 4D World Generation
- Title(参考訳): Code2Worlds: 4Dワールドジェネレーションのためのコーディング LLM の強化
- Authors: Yi Zhang, Yunshuang Wang, Zeyu Zhang, Hao Tang,
- Abstract要約: 我々は、4D生成を言語間コード生成として定式化するフレームワークであるCode2Worldsを紹介した。
本稿では,階層的な環境オーケストレーションから拡張オブジェクトを生成する2重ストリームアーキテクチャを提案する。
我々は,ポストプロシースエージェントが動的にスクリプトする物理対応閉ループ機構と,反復的に洗練されたシミュレーションコードに対して自己回帰を行うVLM-Motion Criticとを結合して構築する。
- 参考スコア(独自算出の注目度): 14.349376975089607
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Achieving spatial intelligence requires moving beyond visual plausibility to build world simulators grounded in physical laws. While coding LLMs have advanced static 3D scene generation, extending this paradigm to 4D dynamics remains a critical frontier. This task presents two fundamental challenges: multi-scale context entanglement, where monolithic generation fails to balance local object structures with global environmental layouts; and a semantic-physical execution gap, where open-loop code generation leads to physical hallucinations lacking dynamic fidelity. We introduce Code2Worlds, a framework that formulates 4D generation as language-to-simulation code generation. First, we propose a dual-stream architecture that disentangles retrieval-augmented object generation from hierarchical environmental orchestration. Second, to ensure dynamic fidelity, we establish a physics-aware closed-loop mechanism in which a PostProcess Agent scripts dynamics, coupled with a VLM-Motion Critic that performs self-reflection to iteratively refine simulation code. Evaluations on the Code4D benchmark show Code2Worlds outperforms baselines with a 41% SGS gain and 49% higher Richness, while uniquely generating physics-aware dynamics absent in prior static methods. Code: https://github.com/AIGeeksGroup/Code2Worlds. Website: https://aigeeksgroup.github.io/Code2Worlds.
- Abstract(参考訳): 空間知性を達成するためには、物理法則に基づく世界シミュレータを構築するために、視覚的可視性を超えて移動する必要がある。
LLMのコーディングには高度な静的な3Dシーン生成があるが、このパラダイムを4Dダイナミックスに拡張することは依然として重要なフロンティアである。
マルチスケールコンテキストの絡み合い(モノリシックな生成)は、局所的なオブジェクト構造とグローバルな環境配置のバランスが取れない)と、オープンループコード生成が動的忠実性に欠ける物理的幻覚をもたらす意味論的実行ギャップである。
我々は、4D生成を言語間コード生成として定式化するフレームワークであるCode2Worldsを紹介した。
まず,階層的な環境オーケストレーションから拡張オブジェクトを生成する2重ストリームアーキテクチャを提案する。
第2に、動的忠実性を確保するために、ポストプロシースエージェントが動的に動的にスクリプトする物理認識閉ループ機構と、反復的に洗練されたシミュレーションコードに自己回帰を行うVLM-Motion Criticを併用する。
Code4Dベンチマークの評価によると、Code2Worldsは41%のSGSゲインと49%のリッチネスでベースラインを上回っている。
コード:https://github.com/AIGeeksGroup/Code2Worlds。
ウェブサイト:https://aigeeksgroup.github.io/Code2Worlds.com
関連論文リスト
- Code2World: A GUI World Model via Renderable Code Generation [37.96080847935199]
我々は、レンダリング可能なコード生成によって次の視覚状態をシミュレートするビジョンフィードバックコーダであるCode2Worldを提案する。
Code2World-8Bは、競合するGPT-5やGemini-3-Pro-Imageに対抗して、パフォーマンスの高い次のUI予測を実現している。
論文 参考訳(メタデータ) (2026-02-10T14:56:19Z) - RISE-Video: Can Video Generators Decode Implicit World Rules? [71.92434352963427]
テキスト画像合成(TI2V)の先駆的推論指向ベンチマークであるRISE-Videoを提案する。
RISE-Videoは、8つの厳格なカテゴリにまたがる、細心の注意深い人手によるサンプル467種からなる。
本研究では,LMM(Large Multimodal Models)を利用して人中心評価をエミュレートする自動パイプラインを提案する。
論文 参考訳(メタデータ) (2026-02-05T18:36:10Z) - SNOW: Spatio-Temporal Scene Understanding with World Knowledge for Open-World Embodied Reasoning [11.93789125154006]
本稿では,VLMから派生したセマンティクスと点雲の幾何と時間的整合性を統合した4次元シーン理解フレームワークを提案する。
SNOWプロセスは、HDBSCANクラスタリングを使用して、同期された3Dポイントクラウドを同期し、セグメンテーション提案を生成する。
多様なベンチマークの実験により、SNOWは正確な4Dシーンの理解と空間的接地推論を可能にした。
論文 参考訳(メタデータ) (2025-12-18T12:27:06Z) - 4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer [40.29321632546414]
4DVGTは、トランスフォーマーベースの最初の4D言語グラウンドのためのフィードフォワード統合フレームワークである。
幾何学的知覚と言語アライメントを単一のアーキテクチャに統合する。
複数のダイナミックシーンを共同でトレーニングし、推論中に直接適用することができる。
論文 参考訳(メタデータ) (2025-12-04T18:15:27Z) - Motion4D: Learning 3D-Consistent Motion and Semantics for 4D Scene Understanding [54.859943475818234]
基礎モデルからの2次元先行を統一された4次元ガウススプラッティング表現に統合する新しいフレームワークであるMotion4Dを提案する。
1) 局所的な一貫性を維持するために連続的に動き場と意味体を更新する逐次最適化,2) 長期的コヒーレンスのために全ての属性を共同で洗練するグローバル最適化,である。
提案手法は,ポイントベーストラッキング,ビデオオブジェクトセグメンテーション,新しいビュー合成など,多様なシーン理解タスクにおいて,2次元基礎モデルと既存の3Dベースアプローチの両方に優れる。
論文 参考訳(メタデータ) (2025-12-03T09:32:56Z) - WorldGrow: Generating Infinite 3D World [75.81531067447203]
我々は、無限に拡張可能な3D世界、すなわちコヒーレントな幾何学と現実的な外観を持つ大規模で連続的な環境を生み出すという課題に取り組む。
本研究では,非有界な3次元シーン合成のための階層的フレームワークWorldGrowを提案する。
提案手法は,(1)高品質なシーンブロックを抽出し,シーン生成に適した3D構造化潜在表現を作成するデータキュレーションパイプライン,(2)コンテキスト認識シーン拡張を可能にする3Dブロックインペイント機構,(3)グローバルなレイアウトの妥当性と局所幾何学的/音声的忠実性の両立を保証する粗大かつ微細な生成戦略,の3つのコアコンポーネントを特徴とする。
論文 参考訳(メタデータ) (2025-10-24T17:39:52Z) - Uni4D-LLM: A Unified SpatioTemporal-Aware VLM for 4D Understanding and Generation [61.60600246983274]
既存の3Dおよび4Dアプローチは、通常、シーン幾何学を意味的理解とコンテンツ生成のための拡散モデルのための自己回帰モデルに組み込む。
我々は4次元シーン理解と生成のための時間的認識を備えた最初の統合VLMフレームワークであるUni4D-LLMを提案する。
論文 参考訳(メタデータ) (2025-09-28T12:06:54Z) - Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos [70.07088203106443]
既存の手法は運動を学ぶための明示的な知識に依存しており、結果として準最適表現をもたらす。
Masked Autoentangler (MAE)フレームワークは、4Dデータにおける低レベルの幾何学と高レベルのダイナミックスの間のギャップを埋めるのに苦労している。
本稿では,表現的,識別的,移動可能な4次元表現を学習するための,新しい自己異方性MAEを提案する。
論文 参考訳(メタデータ) (2025-04-07T08:47:36Z) - Language Conditioned Traffic Generation [37.71751991840586]
LCTGenは、トランスフォーマーベースのデコーダアーキテクチャを備えた、大規模な言語モデルである。
初期トラフィック分布と各車両のダイナミックスを生成する。
LCTGenは、非条件と条件付きの両方のトラフィックシーン生成において、リアリズムと忠実さの点で、事前の作業よりも優れています。
論文 参考訳(メタデータ) (2023-07-16T05:10:32Z) - Class-agnostic Reconstruction of Dynamic Objects from Videos [127.41336060616214]
動的オブジェクトをRGBDや校正ビデオから再構成するためのクラスに依存しないフレームワークであるREDOを紹介する。
我々は2つの新しいモジュールを開発し、まず、時間的視覚的手がかりを集約したピクセル整合性を持つ正準4次元暗黙関数を導入する。
第2に、時間的伝播と集約をサポートするためにオブジェクトのダイナミクスをキャプチャする4D変換モジュールを開発する。
論文 参考訳(メタデータ) (2021-12-03T18:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。