論文の概要: SceneCode: Executable World Programs for Editable Indoor Scenes with Articulated Objects
- arxiv url: http://arxiv.org/abs/2605.19587v1
- Date: Tue, 19 May 2026 09:31:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.249766
- Title: SceneCode: Executable World Programs for Editable Indoor Scenes with Articulated Objects
- Title(参考訳): SceneCode: アーティキュレートされたオブジェクトで編集可能な屋内シーンのための実行可能なワールドプログラム
- Authors: Puyi Wang, Yuhao Wang, Linjie Li, Zhengyuan Yang, Kevin Qinghong Lin, Yangguang Li, Yu Cheng,
- Abstract要約: 室内シーンの合成は、AI、ロボット操作、シミュレーションベースのポリシー評価を具体化する。
既存のパイプラインは、生成されたコンテンツを静的メッシュとして表現し、キュレートされたアセットライブラリからのみ調音を継承する。
我々は、自然言語プロンプトを実行可能なコード駆動屋内世界にコンパイルするフレームワークであるSceneCodeを紹介する。
- 参考スコア(独自算出の注目度): 69.20984454755512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Indoor scene synthesis underpins embodied AI, robotic manipulation, and simulation-based policy evaluation, where a useful scene must specify not only what the environment looks like, but also how its objects are structured. Existing pipelines, however, typically represent generated content as static meshes and inherit articulation only from curated asset libraries, which limits object-level controllability and prevents new interactable assets from being produced on demand. We address this gap by formulating physically interactable indoor scene synthesis as programmatic world generation, and present SceneCode, a framework that compiles a natural language prompt into an executable, code-driven indoor world rather than a collection of opaque meshes. A room-level agentic backbone first turns the prompt into a structured house layout and emits per-object AssetRequests through a planner--designer--critic loop. Each request is then routed to one of five code-generation strategies and converted into a synthesized part-wise Blender Python programs that are validated through an execution-guided repair-and-refine loop. The resulting programs are compiled into simulation-ready assets, and exported as SDF for physics simulation. A persistent scene-state registry links object requests, executable programs, rendered geometry, and simulation assets, turning scene assembly into a traceable and locally editable world-building process. We evaluate SceneCode across scene-level synthesis, object-level asset quality, human judgment, and downstream robot interaction. Results show that executable world programs improve prompt-faithful indoor scene generation and produce assets with cleaner mesh structure, and simulator-loadable articulation metadata. Project page: https://scene-code.github.io/.
- Abstract(参考訳): 室内シーンの合成は、AI、ロボット操作、シミュレーションベースのポリシー評価を具現化したものだ。
しかし、既存のパイプラインは通常、生成されたコンテンツを静的メッシュとして表現し、オブジェクトレベルの制御性を制限し、必要に応じて新たな対話可能なアセットが生成されるのを防ぐ、キュレートされたアセットライブラリのみを継承する。
このギャップを、物理的に相互作用可能な屋内シーン合成をプログラム的世界生成として定式化し、自然言語プロンプトを不透明なメッシュの集合ではなく実行可能なコード駆動屋内世界にコンパイルするフレームワークであるSceneCodeを提示する。
部屋レベルのエージェントバックボーンは、まずプロンプトを構造化されたハウスレイアウトに変換し、プランナー--デザイナ--批判ループを介してオブジェクトごとのアセットリクエストを出力する。
それぞれのリクエストは5つのコード生成戦略のうちの1つにルーティングされ、実行誘導の修理と修正のループを通じて検証される、合成された部分ワイドのBlender Pythonプログラムに変換される。
得られたプログラムはシミュレーション可能な資産にコンパイルされ、物理シミュレーションのためにSDFとしてエクスポートされる。
永続的なシーンステートレジストリは、オブジェクトリクエスト、実行可能プログラム、レンダリングされた幾何学、シミュレーション資産をリンクし、シーンアセンブリをトレース可能でローカルに編集可能な世界構築プロセスに変換する。
SceneCodeはシーンレベルの合成、オブジェクトレベルの資産品質、人間の判断、下流ロボットのインタラクションなどにわたって評価する。
その結果、実行可能世界プログラムは、プロンプトフルな屋内シーン生成を改善し、よりクリーンなメッシュ構造で資産を生産し、シミュレーター搭載可能な調音メタデータを作成した。
プロジェクトページ: https://scene-code.github.io/
関連論文リスト
- WorldAct: Activating Monolithic 3D Worlds into Interactive-Ready Object-Centric Scenes [15.223046632151364]
静的な3Dワールドを編集可能で対話可能なシーンに変換するフレームワークであるWorldActを提示する。
WorldActはマルチモーダルエージェントを使用してシーンの分解を誘導し、実行可能なオブジェクトを識別し、相互作用のために幾何学的に整列されたオブジェクトレベルのメッシュを再構築し、3Dインペインティングによって残りのバックグラウンドを復元する。
実験により、WorldActはオリジナルのシーンよりもリッチなインタラクションシナリオを可能にし、編集可能でインタラクティブな3Dワールドモデルへの実践的な道のりを示唆している。
論文 参考訳(メタデータ) (2026-05-15T10:56:23Z) - SAGE: Scalable Agentic 3D Scene Generation for Embodied AI [67.43935343696982]
既存のシーン生成システムは、しばしばルールベースまたはタスク固有のパイプラインに依存し、アーティファクトと物理的に無効なシーンを生成する。
本稿では,ユーザが特定した具体的タスクを与えられたエージェントフレームワークであるSAGEについて,その意図を理解し,大規模にシミュレーション可能な環境を自動的に生成する。
得られた環境は現実的で多様性があり、政策訓練のための現代的なシミュレーターに直接デプロイできる。
論文 参考訳(メタデータ) (2026-02-10T18:59:55Z) - SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes [19.995619927680476]
SceneSmithは、建築レイアウトから天然家具の人口まで、環境を構築する。
SceneSmithは従来の方法よりも多くのオブジェクトを生成し、2%のオブジェクト間衝突と96%のオブジェクトは物理シミュレーションの下で安定している。
SceneSmith環境は、エンドツーエンドのパイプラインで、自動ポリシ評価に使用することができる。
論文 参考訳(メタデータ) (2026-02-09T19:56:04Z) - ArtiWorld: LLM-Driven Articulation of 3D Objects in Scenes [43.19849355456126]
ArtiWorldは、テキストシーン記述から候補のアーティキュラブルオブジェクトをローカライズする、シーン認識パイプラインである。
このパイプラインのコアとなるArti4URDFは、3Dポイントクラウドと大規模言語モデルの事前知識を活用している。
ArtiWorldを3つのレベル(3Dシミュレーションオブジェクト、フル3Dシミュレーションシーン、実世界のスキャンシーン)で評価する。
論文 参考訳(メタデータ) (2025-11-17T04:59:21Z) - REACT3D: Recovering Articulations for Interactive Physical 3D Scenes [96.27769519526426]
REACT3Dは静的な3Dシーンを一貫した幾何学を持つシミュレーション可能なインタラクティブなレプリカに変換するフレームワークである。
室内の様々な場面における検出・分離・調音計測における最先端性能について検討した。
論文 参考訳(メタデータ) (2025-10-13T12:37:59Z) - LiveScene: Language Embedding Interactive Radiance Fields for Physical Scene Rendering and Control [43.25983939699873]
本稿では,複雑なシーンにオブジェクトレベルの再構築を拡大し,インタラクティブなシーン再構築を推し進める。
複数のオブジェクトを効率的に再構成し,制御する,シーンレベルの言語埋め込み型対話型放射場LiveSceneを提案する。
論文 参考訳(メタデータ) (2024-06-23T07:26:13Z) - SceneCraft: An LLM Agent for Synthesizing 3D Scene as Blender Code [76.22337677728109]
SceneCraftはLarge Language Model (LLM)エージェントで、テキスト記述をBlender-executable Pythonスクリプトに変換する。
SceneCraftは、100個の3Dアセットで複雑なシーンをレンダリングする。
高度な抽象化、戦略的計画、ライブラリ学習を組み合わせることで、これらの課題に取り組みます。
論文 参考訳(メタデータ) (2024-03-02T16:16:26Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。