論文の概要: Code-as-Room: Generating 3D Rooms from Top-Down View Images via Agentic Code Synthesis
- arxiv url: http://arxiv.org/abs/2605.18451v1
- Date: Mon, 18 May 2026 14:18:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.71189
- Title: Code-as-Room: Generating 3D Rooms from Top-Down View Images via Agentic Code Synthesis
- Title(参考訳): Code-as-Room:エージェントコード合成によるトップダウン画像から3Dルームを生成する
- Authors: Yixuan Yang, Zhen Luo, Wanshui Gan, Jinkun Hao, Junru Lu, Jinghao Yan, Zhaoyang Lyu, Xudong Xu,
- Abstract要約: 構造化実行ハーネスを備えたMLLMベースのエージェントフレームワークであるCode-as-Roomを提案する。
トップダウンのルームイメージが与えられた場合、フレームワークは参照画像を解析してシーン要素とその空間関係を抽出する。
クロスステージメモリモジュールは、既存のエージェントベースのフレームワーク固有のコンテキストを緩和するために、全期間にわたって維持される。
- 参考スコア(独自算出の注目度): 12.68633443613779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing realistic and functional 3D indoor rooms is essential for a wide range of applications, including interior design, virtual reality, gaming, and embodied AI. While recent MLLM-based approaches have shown great potential for 3D room synthesis from textual descriptions or reference images, text-based methods struggle to capture precise spatial information, and existing image-conditioned agents suffer from instability and infinite looping when tasked with holistic room generation from top-down views. To address these limitations, we propose Code-as-Room, an MLLM-based agentic framework equipped with a structured execution harness, which represents 3D rooms with Blender codes. Given a top-down room image, the framework parses the reference image to extract scene elements and their spatial relationships, and synthesizes executable Blender code for geometry, materials, and lighting in a principled, multi-stage pipeline. A cross-stage memory module is maintained throughout to mitigate context forgetting inherent to existing agent-based frameworks. We further introduce a dedicated benchmark for code-based 3D room synthesis, encompassing various evaluation protocols. Based on our benchmark, comprehensive comparisons against existing agent-based methods are conducted to validate the effectiveness of our proposed execution harness.
- Abstract(参考訳): リアルで機能的な3D屋内ルームを設計することは、インテリアデザイン、バーチャルリアリティー、ゲーム、エンボディドAIなど、幅広いアプリケーションに必須である。
最近のMLLMベースのアプローチは、テキスト記述や参照画像から3次元の部屋の合成に大きな可能性を示しているが、テキストベースの手法は正確な空間情報を捉えるのに苦労しており、既存の画像条件付きエージェントは、トップダウンビューから全体論的な部屋の生成をタスクした場合、不安定性と無限ループに悩まされている。
これらの制約に対処するため,MLLMベースのエージェントフレームワークであるCode-as-Roomを提案する。
トップダウンのルームイメージを与えられたフレームワークは、参照画像を解析してシーン要素とその空間的関係を抽出し、原則化されたマルチステージパイプラインで、幾何学、材料、照明のための実行可能なブレンダーコードを合成する。
クロスステージメモリモジュールは、既存のエージェントベースのフレームワーク固有のコンテキストを忘れないように、全期間維持される。
さらに、様々な評価プロトコルを含むコードベースの3D部屋合成のための専用ベンチマークを導入する。
本ベンチマークに基づいて,提案手法の有効性を検証するため,既存のエージェントベース手法と比較して総合的な比較を行った。
関連論文リスト
- Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding [34.1504914582344]
3D Visual Groundingは、自然言語記述を通じてオブジェクトを3Dシーンにローカライズすることを目的としている。
生のRGB-Dストリーム上で直接動作する2次元から3次元の再生パラダイムである"Think, Act, Build (TAB)"を提案する。
厳密なVLMセマンティックトラッキングによる多視点カバレッジ障害を克服するために,セマンティックアンコレッド幾何拡張を導入する。
論文 参考訳(メタデータ) (2026-04-01T06:12:16Z) - RoomEditor++: A Parameter-Sharing Diffusion Architecture for High-Fidelity Furniture Synthesis [89.26382925677301]
仮想家具の合成は、ホームデザインと電子商取引の応用を大いに約束する。
RoomEditor++は、パラメータ共有デュアル拡散バックボーンを備えた多用途拡散ベースアーキテクチャである。
RoomEditor++は、定量的メトリクス、質的評価、そして人間の嗜好研究の観点から、最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2025-12-19T13:39:43Z) - SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - DeBaRA: Denoising-Based 3D Room Arrangement Generation [22.96293773013579]
有界環境における正確で制御可能で柔軟なアレンジメント生成に適したスコアベースモデルであるDeBaRAを紹介する。
本研究では,オブジェクトの空間特性に着目して,シーン合成や完了,再配置など,複数のダウンストリームアプリケーションを実行するために,単一トレーニングされたDeBaRAモデルをテスト時に活用できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T23:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。