論文の概要: SceneCraft: An LLM Agent for Synthesizing 3D Scene as Blender Code
- arxiv url: http://arxiv.org/abs/2403.01248v1
- Date: Sat, 2 Mar 2024 16:16:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 14:27:19.057893
- Title: SceneCraft: An LLM Agent for Synthesizing 3D Scene as Blender Code
- Title(参考訳): scenecraft: 3dシーンをブレンダーコードとして合成するllmエージェント
- Authors: Ziniu Hu, Ahmet Iscen, Aashi Jain, Thomas Kipf, Yisong Yue, David A.
Ross, Cordelia Schmid, Alireza Fathi
- Abstract要約: SceneCraftはLarge Language Model (LLM)エージェントで、テキスト記述をBlender-executable Pythonスクリプトに変換する。
SceneCraftは、100個の3Dアセットで複雑なシーンをレンダリングする。
高度な抽象化、戦略的計画、ライブラリ学習を組み合わせることで、これらの課題に取り組みます。
- 参考スコア(独自算出の注目度): 76.22337677728109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces SceneCraft, a Large Language Model (LLM) Agent
converting text descriptions into Blender-executable Python scripts which
render complex scenes with up to a hundred 3D assets. This process requires
complex spatial planning and arrangement. We tackle these challenges through a
combination of advanced abstraction, strategic planning, and library learning.
SceneCraft first models a scene graph as a blueprint, detailing the spatial
relationships among assets in the scene. SceneCraft then writes Python scripts
based on this graph, translating relationships into numerical constraints for
asset layout. Next, SceneCraft leverages the perceptual strengths of
vision-language foundation models like GPT-V to analyze rendered images and
iteratively refine the scene. On top of this process, SceneCraft features a
library learning mechanism that compiles common script functions into a
reusable library, facilitating continuous self-improvement without expensive
LLM parameter tuning. Our evaluation demonstrates that SceneCraft surpasses
existing LLM-based agents in rendering complex scenes, as shown by its
adherence to constraints and favorable human assessments. We also showcase the
broader application potential of SceneCraft by reconstructing detailed 3D
scenes from the Sintel movie and guiding a video generative model with
generated scenes as intermediary control signal.
- Abstract(参考訳): 本稿では,Large Language Model (LLM) エージェントであるSceneCraftを紹介し,テキスト記述をBlender-executable Pythonスクリプトに変換し,100個の3Dアセットで複雑なシーンを描画する。
このプロセスは複雑な空間計画と配置を必要とする。
高度な抽象化、戦略的計画、およびライブラリ学習の組み合わせを通じて、これらの課題に取り組む。
SceneCraftはまず、シーングラフを青写真としてモデル化し、シーン内の資産間の空間的関係を詳述する。
SceneCraftはこのグラフに基づいてPythonスクリプトを書き、関係をアセットレイアウトの数値的な制約に変換する。
次に、SceneCraftは、GPT-Vのような視覚言語基盤モデルの知覚力を活用して、レンダリングされた画像を分析し、シーンを反復的に洗練する。
このプロセスに加えて、SceneCraftは、共通スクリプト機能を再利用可能なライブラリにコンパイルするライブラリ学習機構を備えており、高価なLLMパラメータチューニングなしで継続的自己改善を容易にする。
以上の結果から,シーンクラフトは複雑なシーンのレンダリングにおいて既存のllmベースのエージェントを上回っており,制約への順守や好適な人間評価が示される。
また,sintel映画から詳細な3dシーンを再構成し,生成シーンを中間制御信号として映像生成モデルを誘導することで,シーンクラフトの幅広い応用可能性を示す。
関連論文リスト
- SceneCraft: Layout-Guided 3D Scene Generation [29.713491313796084]
シーンクラフト(SceneCraft)は、テキスト記述や空間的レイアウトの好みに則った、室内の詳細なシーンを生成する新しい方法である。
本手法は,多様なテクスチャ,一貫した幾何,現実的な視覚的品質を有する複雑な屋内シーン生成において,既存のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2024-10-11T17:59:58Z) - MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling [21.1274747033854]
キャラクタビデオ合成は、ライフライクなシーン内でアニマタブルなキャラクターのリアルなビデオを作成することを目的としている。
Miloは、文字ビデオを制御可能な属性で合成できる新しいフレームワークである。
Miloは、任意のキャラクタへの高度なスケーラビリティ、新しい3Dモーションへの一般化、インタラクティブな現実世界のシーンへの適用性を実現している。
論文 参考訳(メタデータ) (2024-09-24T15:00:07Z) - 3D scene generation from scene graphs and self-attention [51.49886604454926]
本稿では,シーングラフとフロアプランから3次元シーンを合成する条件付き変分オートエンコーダ(cVAE)モデルを提案する。
我々は、シーン内のオブジェクト間の高レベルな関係をキャプチャするために、自己注意層の特性を利用する。
論文 参考訳(メタデータ) (2024-04-02T12:26:17Z) - SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model [7.707324214953882]
SceneScriptは、構造化言語コマンドのシーケンスとして、フルシーンモデルを生成するメソッドである。
本手法は,符号化された視覚データから直接構造化言語コマンドのセットを推論する。
提案手法は,3次元オブジェクト検出において,構造的レイアウト推定における最先端の成果と競合する結果を与える。
論文 参考訳(メタデータ) (2024-03-19T18:01:29Z) - Disentangled 3D Scene Generation with Layout Learning [109.03233745767062]
本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。
私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。
単純さにもかかわらず、我々のアプローチは個々のオブジェクトに3Dシーンを生成することに成功している。
論文 参考訳(メタデータ) (2024-02-26T18:54:15Z) - Blocks2World: Controlling Realistic Scenes with Editable Primitives [5.541644538483947]
我々は3Dシーンのレンダリングと編集のための新しい方法であるBlocks2Worldを提案する。
本手法は,コンベックス分解を用いて,各シーンの様々な物体から3次元並列入力を抽出することから始める。
次のステージでは、2Dレンダリングされた凸プリミティブから画像を生成することを学ぶ条件付きモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-07-07T21:38:50Z) - DORSal: Diffusion for Object-centric Representations of Scenes et al [28.181157214966493]
最近の3Dシーン理解の進歩は、多様なシーンの大きなデータセットにわたる表現のスケーラブルな学習を可能にする。
本研究では,凍結したオブジェクト中心のスロットベースのシーン表現を条件とした3次元シーン生成にビデオ拡散アーキテクチャを適用したDORSalを提案する。
論文 参考訳(メタデータ) (2023-06-13T18:32:35Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Set-the-Scene: Global-Local Training for Generating Controllable NeRF
Scenes [68.14127205949073]
オブジェクトプロキシを用いて3Dシーンを合成するための新しいGlobalLocalトレーニングフレームワークを提案する。
プロキシを使うことで、個々の独立オブジェクトの配置を調整するなど、さまざまな編集オプションが実現可能であることを示す。
その結果,Set-the-Sceneはシーンの合成と操作に強力なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-23T17:17:29Z) - Control-NeRF: Editable Feature Volumes for Scene Rendering and
Manipulation [58.16911861917018]
高品質な新規ビュー合成を実現しつつ,フレキシブルな3次元画像コンテンツ操作を実現するための新しい手法を提案する。
モデルペアはシーンに依存しないニューラルネットワークを用いてシーン固有の特徴ボリュームを学習する。
我々は、シーンの混合、オブジェクトの変形、シーンへのオブジェクト挿入など、さまざまなシーン操作を実証すると同時に、写真リアリスティックな結果も生成する。
論文 参考訳(メタデータ) (2022-04-22T17:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。