論文の概要: WorldCraft: Photo-Realistic 3D World Creation and Customization via LLM Agents
- arxiv url: http://arxiv.org/abs/2502.15601v1
- Date: Fri, 21 Feb 2025 17:18:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:10:16.744508
- Title: WorldCraft: Photo-Realistic 3D World Creation and Customization via LLM Agents
- Title(参考訳): WorldCraft: フォトリアリスティックな3Dワールド創造とLLMエージェントによるカスタマイズ
- Authors: Xinhang Liu, Chi-Keung Tang, Yu-Wing Tai,
- Abstract要約: 大規模言語モデル(LLM)エージェントがプロシージャ生成を利用してオブジェクトを集約したシーンを生成するシステムであるWorldCraftを紹介する。
本フレームワークでは,コーディネータエージェントが全体の処理を管理し,シーン作成を完了させるために2つの特殊なLLMエージェントと連携する。
パイプラインには軌道制御エージェントが組み込まれており、ユーザはシーンをアニメーション化し、自然言語による対話を通じてカメラを操作することができる。
- 参考スコア(独自算出の注目度): 67.31920821192323
- License:
- Abstract: Constructing photorealistic virtual worlds has applications across various fields, but it often requires the extensive labor of highly trained professionals to operate conventional 3D modeling software. To democratize this process, we introduce WorldCraft, a system where large language model (LLM) agents leverage procedural generation to create indoor and outdoor scenes populated with objects, allowing users to control individual object attributes and the scene layout using intuitive natural language commands. In our framework, a coordinator agent manages the overall process and works with two specialized LLM agents to complete the scene creation: ForgeIt, which integrates an ever-growing manual through auto-verification to enable precise customization of individual objects, and ArrangeIt, which formulates hierarchical optimization problems to achieve a layout that balances ergonomic and aesthetic considerations. Additionally, our pipeline incorporates a trajectory control agent, allowing users to animate the scene and operate the camera through natural language interactions. Our system is also compatible with off-the-shelf deep 3D generators to enrich scene assets. Through evaluations and comparisons with state-of-the-art methods, we demonstrate the versatility of WorldCraft, ranging from single-object customization to intricate, large-scale interior and exterior scene designs. This system empowers non-professionals to bring their creative visions to life.
- Abstract(参考訳): フォトリアリスティックな仮想世界を構築するには、様々な分野の応用があるが、従来の3Dモデリングソフトウェアを操作するためには、高度に訓練された専門家の広範な労力を必要とすることが多い。
このプロセスを民主化するために,大規模言語モデル (LLM) エージェントがプロシージャ生成を活用してオブジェクトが密集した屋内・屋外シーンを作成するシステムであるWorldCraftを導入し,ユーザが直感的な自然言語コマンドを用いて個々のオブジェクト属性とシーンレイアウトを制御できるようにする。
我々のフレームワークでは、コーディネータエージェントが全体プロセスを管理し、シーン作成を完了させるために2つの特殊なLLMエージェントと連携する: ForgeItは自動検証によって成長を続けるマニュアルを統合し、個々のオブジェクトの正確なカスタマイズを可能にし、ArrangeItは階層的な最適化問題を定式化し、人間工学と美学のバランスをとるレイアウトを実現する。
さらに、私たちのパイプラインには軌道制御エージェントが組み込まれており、ユーザーはシーンをアニメーション化し、自然言語による対話を通じてカメラを操作することができる。
我々のシステムは、シーンアセットを豊かにするために、市販の深部3Dジェネレータとも互換性がある。
評価と最先端の手法との比較を通じて、単一対象のカスタマイズから複雑で大規模なインテリアおよび外装のシーンデザインまで、WorldCraftの汎用性を実証する。
このシステムは、非専門職が創造的なビジョンを生き返らせる権限を与える。
関連論文リスト
- Proc-GS: Procedural Building Generation for City Assembly with 3D Gaussians [65.09942210464747]
資産の創出は労働集約的であり、設計ルールを開発するには専門的なスキルが必要である。
作成のための最近の生成モデルは、しばしばこれらのパターンを見落とし、視覚的忠実度が低く、スケーラビリティが制限される。
手続き的なコードを操作することで、このプロセスを合理化し、無限に多様な建物を生成することができます。
論文 参考訳(メタデータ) (2024-12-10T16:45:32Z) - Architect: Generating Vivid and Interactive 3D Scenes with Hierarchical 2D Inpainting [47.014044892025346]
Architectは、拡散ベースの2Dイメージのインペイントを活用する、複雑で現実的な3Dエボダイド環境を作成する、生成フレームワークである。
我々のパイプラインはさらに階層的かつ反復的な塗装プロセスに拡張され、大きな家具や小さな物体の配置を連続的に生成し、シーンを豊かにする。
論文 参考訳(メタデータ) (2024-11-14T22:15:48Z) - BlenderAlchemy: Editing 3D Graphics with Vision-Language Models [4.852796482609347]
ビジョンベースの編集生成器と状態評価器が協力して、目標を達成するための正しいアクションのシーケンスを見つける。
人間のデザインプロセスにおける視覚的想像力の役割に触発されて、視覚言語モデルの視覚的推論能力を「想像された」参照画像で補う。
論文 参考訳(メタデータ) (2024-04-26T19:37:13Z) - SceneX: Procedural Controllable Large-scale Scene Generation [52.4743878200172]
本稿では,デザイナーのテキスト記述に従って高品質な手続きモデルを自動生成するSceneXを紹介する。
提案手法はPCGHubとPCGPlannerの2つのコンポーネントからなる。
後者の目的は、Blenderがユーザの指示によって誘導される制御可能で正確な3Dアセットを生成するために実行可能なアクションを生成することである。
論文 参考訳(メタデータ) (2024-03-23T03:23:29Z) - Style-Consistent 3D Indoor Scene Synthesis with Decoupled Objects [84.45345829270626]
制御可能な3D屋内シーン合成は、技術進歩の最前線にある。
シーンスタイリングの現在の手法は、シーン全体にスタイルを適用することに限定されている。
室内3Dシーンを合成するためのユニークなパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-24T03:10:36Z) - Dream2Real: Zero-Shot 3D Object Rearrangement with Vision-Language Models [12.965144877139393]
本稿では、2Dデータに基づいてトレーニングされた視覚言語モデル(VLM)を3Dオブジェクト再構成パイプラインに統合するロボットフレームワークであるDream2Realを紹介する。
これは、ロボットがシーンの3D表現を自律的に構築し、オブジェクトを仮想的に再配置し、その結果の配置の画像を描画することで実現される。
これらのレンダリングはVLMによって評価され、ユーザの指示に最も適した配列が選択され、ピック・アンド・プレイスで現実世界で再現される。
論文 参考訳(メタデータ) (2023-12-07T18:51:19Z) - 3D-GPT: Procedural 3D Modeling with Large Language Models [47.72968643115063]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文 参考訳(メタデータ) (2023-10-19T17:41:48Z) - UrbanGIRAFFE: Representing Urban Scenes as Compositional Generative
Neural Feature Fields [22.180286908121946]
粗い3Dパノプティクスを用いて、3D認識生成モデルを導出するUrbanGIRAFFEを提案する。
私たちのモデルは、シーンを物、物、空に分解するので、構成的で制御可能です。
適切な損失関数を用いることで,多種多様な可制御性を持つ光リアルな3次元画像合成が容易となる。
論文 参考訳(メタデータ) (2023-03-24T17:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。