論文の概要: WorldCoder-Bench: Benchmarking Physically Grounded 3D World Synthesis
- arxiv url: http://arxiv.org/abs/2606.01869v2
- Date: Mon, 08 Jun 2026 11:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:04.779329
- Title: WorldCoder-Bench: Benchmarking Physically Grounded 3D World Synthesis
- Title(参考訳): WorldCoder-Bench: 物理的にグラウンド化された3Dワールドシンセサイザーのベンチマーク
- Authors: Shuo Lu, Yinuo Xu, Kecheng Yu, Siru Jiang, Yongcan Yu, Yubin Wang, Haitao Yang, Yuxiang Zhang, Bin Wang, Ran He, Jian Liang,
- Abstract要約: 本稿では,3次元世界合成のベンチマークであるWorldCoder-Benchを紹介する。
WorldCoder-Benchには、シミュレーション、レンダリング、アプリケーションシナリオにわたる専門家による2,026のタスクが含まれている。
サンドボックスブラウザで生成されたプログラムを探索する実行ベースのプロトコルであるStateProbeを提案する。
- 参考スコア(独自算出の注目度): 31.935792644428584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly asked not only to write static interfaces, but to construct executable interactive worlds from natural language. Browser-native 3D, commonly built with Three.js, is a natural next frontier: generated programs must integrate assets, obey spatial and physical constraints, and keep user-facing controls synchronized with hidden runtime state. Existing web-generation benchmarks and evaluators, however, largely observe only pixels or DOM nodes, while the mechanics of a Three.js world unfold inside an opaque <canvas>. We introduce WorldCoder-Bench, a benchmark for autonomous, physically grounded 3D world synthesis. WorldCoder-Bench contains 2,026 expert-curated tasks across Simulation, Rendering, and Application scenarios, with optional .glb assets and hidden behavioral contracts. We further propose StateProbe, an execution-based protocol that probes generated programs in a sandboxed browser and verifies hidden, mutation-hardened contracts over runtime states and transitions. Beyond verification coverage, we report Return on Automation and Time Efficiency Multiplier to measure correctness-adjusted cost and time savings. Across nine frontier models, the best system reaches only 27.8% verification coverage on WorldCoder-Core and 19.9% on WorldCoder-Robust, with failures dominated by state-schema drift and broken interaction chains rather than missing scene elements. Utility metrics further show that cheap or fast models can still provide substantial value on easier domains. WorldCoder-Bench is available at https://anonymous.4open.science/r/WorldCoder-Bench/.
- Abstract(参考訳): 大規模言語モデル(LLM)は、静的インターフェースを書くだけでなく、自然言語から実行可能なインタラクティブな世界を構築するよう、ますます求められている。
Three.jsで一般的に構築されるブラウザネイティブ3Dは、自然な次のフロンティアである。生成されたプログラムは、アセットを統合し、空間的および物理的制約に従わなければならない。
しかし、既存のWebジェネレーションベンチマークと評価器は、主にピクセルやDOMノードのみを観察する一方、Three.jsの世界のメカニズムは不透明な<canvas>の中に展開する。
我々は、自律的、物理的に基底付けられた3D世界合成のためのベンチマークであるWorldCoder-Benchを紹介する。
WorldCoder-Benchには、シミュレーション、レンダリング、アプリケーションシナリオにまたがる2,026のエキスパートキュレートされたタスクが含まれている。
glb資産と隠れた行動契約
さらに、実行ベースのプロトコルであるStateProbeを提案し、サンドボックスブラウザで生成されたプログラムを探索し、実行時状態と遷移に対する隠れた、突然変異の修正された契約を検証する。
検証範囲を超えて、精度調整コストと時間節約を計測するために、自動化と時間効率の乗算器の返却を報告します。
9つのフロンティアモデル全体で、最高のシステムはWorldCoder-Coreで27.8%、WorldCoder-Robustで19.9%にしか届かない。
実用性指標はさらに、安上がりなモデルや高速なモデルは、より簡単なドメインに対して大きな価値を提供する可能性があることを示しています。
WorldCoder-Benchはhttps://anonymous.4open.science/r/WorldCoder-Bench/で入手できる。
関連論文リスト
- AFUN: Towards an Affordance Foundation Model for Functionality Understanding [12.890216832485647]
我々は,機能理解のための手頃な基礎モデルに向けたステップとして,我々のモデルを提示する。
我々は、異種ロボット、人間、シミュレーション、現実世界のスキャンデータを共有価格スキーマに変換する大規模な標準化データパイプラインを構築します。
私たちのモデルは、4つのベンチマークから8つのテストセットにまたがる大きなマージンで、すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2026-06-01T17:50:16Z) - SceneCode: Executable World Programs for Editable Indoor Scenes with Articulated Objects [69.20984454755512]
室内シーンの合成は、AI、ロボット操作、シミュレーションベースのポリシー評価を具体化する。
既存のパイプラインは、生成されたコンテンツを静的メッシュとして表現し、キュレートされたアセットライブラリからのみ調音を継承する。
我々は、自然言語プロンプトを実行可能なコード駆動屋内世界にコンパイルするフレームワークであるSceneCodeを紹介する。
論文 参考訳(メタデータ) (2026-05-19T09:31:04Z) - StoryBlender: Inter-Shot Consistent and Editable 3D Storyboard with Spatial-temporal Dynamics [56.8957922153694]
StoryBlenderは、ストーリー中心のリフレクションスキームによって管理される、3Dストーリーボード生成フレームワークです。
StoryBlenderは拡散ベースベースと3Dグラウンドベースラインの整合性と編集性を大幅に改善する。
論文 参考訳(メタデータ) (2026-04-01T07:24:31Z) - BloClaw: An Omniscient, Multi-Modal Agentic Workspace for Next-Generation Scientific Discovery [7.409685482433176]
BloClawはAI4S(Artificial Intelligence for Science)用に設計された統合オペレーティングシステムである。
我々はBloClaw across cheminformatics (RDKit), de novo 3D protein folding via ESM, molecular docking, and autonomous Retrieval-Plotmented Generation (RAG)をベンチマークした。
オープンソースリポジトリはhttps://github.com/qinheming/BloClawで公開されている。
論文 参考訳(メタデータ) (2026-04-01T06:47:40Z) - Beyond Pixel Histories: World Models with Persistent 3D State [50.4601060508243]
PERSISTは、潜伏した3Dシーンの進化をシミュレートする世界モデルの新たなパラダイムである。
既存の手法に比べて空間記憶,3次元整合性,長期安定性が大幅に向上した。
論文 参考訳(メタデータ) (2026-03-03T19:58:31Z) - MVGGT: Multimodal Visual Geometry Grounded Transformer for Multiview 3D Referring Expression Segmentation [59.75554954111619]
マルチビュー3D参照表現(MV-3DRES)を導入し、モデルがシーン構造を復元し、参照対象をスパースなマルチビュー画像から直接セグメント化する必要がある。
本稿では,言語情報をスパースビュー幾何学的推論に組み込む,効率的なエンドツーエンドフレームワークであるMultimodal Visual Geometry Grounded Transformer (MVGGT)を提案する。
実験により、MVGGTは最初の強力なベースラインを確立し、高精度かつ高速な推論を達成し、既存の選択肢よりも優れていることが示された。
論文 参考訳(メタデータ) (2026-01-11T11:44:07Z) - SpaceControl: Introducing Test-Time Spatial Control to 3D Generative Modeling [62.89824987879374]
本研究では,3次元生成の空間的制御を明示する訓練不要なテストタイム手法であるSpaceControlを紹介する。
SpaceControlは、追加のトレーニングを必要とせずに、現代的な事前訓練された生成モデルとシームレスに統合する。
テクスチャ化された3Dアセットへの直接変換を行うために,スーパークワッドリックのオンライン編集を可能にする対話型ユーザインタフェースを提案する。
論文 参考訳(メタデータ) (2025-12-05T00:54:48Z) - MGA: Memory-Driven GUI Agent for Observation-Centric Interaction [30.45490249299358]
メモリ駆動型GUIエージェント(MGA)を導入し、まず観察の原理に基づいてGUIインタラクションをリフレームし、次に決定する。
MGAは最先端のベースラインに比べてロバスト性、一般化、効率性が著しく向上する。
論文 参考訳(メタデータ) (2025-10-28T08:19:58Z) - ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills [24.150758623016195]
我々は、一般化可能な操作スキルのための次世代のSAPIEN ManiSkillベンチマークであるManiSkill2を紹介する。
ManiSkill2には、2000以上のオブジェクトモデルと4M以上のデモフレームを備えた20の操作タスクファミリが含まれている。
幅広いアルゴリズムをサポートする統一インターフェースと評価プロトコルを定義する。
高速な視覚入力学習アルゴリズムにより、CNNベースのポリシーでサンプルを約2000 FPSで収集することができる。
論文 参考訳(メタデータ) (2023-02-09T14:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。