論文の概要: ShapeCraft: LLM Agents for Structured, Textured and Interactive 3D Modeling
- arxiv url: http://arxiv.org/abs/2510.17603v1
- Date: Mon, 20 Oct 2025 14:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.487967
- Title: ShapeCraft: LLM Agents for Structured, Textured and Interactive 3D Modeling
- Title(参考訳): ShapeCraft: 構造化,テクスチャ,インタラクティブな3DモデリングのためのLLMエージェント
- Authors: Shuyuan Zhang, Chenhan Jiang, Zuoou Li, Jiankang Deng,
- Abstract要約: ShapeCraftはテキストから3D生成のための新しいマルチエージェントフレームワークである。
ShapeCraftは複雑な自然言語をサブタスクの構造化グラフに分解する。
エージェントはユーザの入力をGPSに解析し、手続き的モデリングと絵を反復的に洗練して3Dアセットを生成する。
- 参考スコア(独自算出の注目度): 45.20958044544727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D generation from natural language offers significant potential to reduce expert manual modeling efforts and enhance accessibility to 3D assets. However, existing methods often yield unstructured meshes and exhibit poor interactivity, making them impractical for artistic workflows. To address these limitations, we represent 3D assets as shape programs and introduce ShapeCraft, a novel multi-agent framework for text-to-3D generation. At its core, we propose a Graph-based Procedural Shape (GPS) representation that decomposes complex natural language into a structured graph of sub-tasks, thereby facilitating accurate LLM comprehension and interpretation of spatial relationships and semantic shape details. Specifically, LLM agents hierarchically parse user input to initialize GPS, then iteratively refine procedural modeling and painting to produce structured, textured, and interactive 3D assets. Qualitative and quantitative experiments demonstrate ShapeCraft's superior performance in generating geometrically accurate and semantically rich 3D assets compared to existing LLM-based agents. We further show the versatility of ShapeCraft through examples of animated and user-customized editing, highlighting its potential for broader interactive applications.
- Abstract(参考訳): 自然言語からの3D生成は、専門家の手動モデリングの取り組みを減らし、3Dアセットへのアクセシビリティを高める大きな可能性を秘めている。
しかし、既存の手法は、しばしば非構造的なメッシュを生成し、相互作用性に乏しいため、芸術的なワークフローでは実用的ではない。
これらの制約に対処するため、3Dアセットを形状プログラムとして表現し、テキストから3D生成のための新しいマルチエージェントフレームワークであるShapeCraftを導入する。
その中心となるのは、複雑な自然言語をサブタスクの構造化グラフに分解するグラフベースの手続き型形状(GPS)表現であり、それによって、空間的関係や意味的な形状の詳細の正確なLLM理解と解釈が容易になる。
具体的には、LLMエージェントがユーザー入力を階層的に解析してGPSを初期化し、手続き的モデリングと絵を反復的に洗練し、構造化され、テクスチャ化され、インタラクティブな3Dアセットを生成する。
定性的かつ定量的な実験は、シェープクラフトが既存のLCMベースのエージェントと比較して幾何学的に正確で意味的にリッチな3Dアセットを生成するのに優れた性能を示した。
さらに、アニメーションおよびユーザカスタマイズ編集の例を通して、ShapeCraftの汎用性を示し、より広範なインタラクティブなアプリケーションの可能性を強調します。
関連論文リスト
- LL3M: Large Language 3D Modelers [18.23329430829059]
LL3Mは,解釈可能なPythonコードをBlenderで記述することで3Dアセットを生成するシステムである。
形状生成をコード記述タスクとして再構成し,モジュール性,編集性,アーティストBlenderとの連携を実現する。
本実験では,3次元アセット生成のための生成的・解釈可能な媒体としてのコードの有用性を示す。
論文 参考訳(メタデータ) (2025-08-11T17:48:02Z) - StdGEN: Semantic-Decomposed 3D Character Generation from Single Images [28.302030751098354]
StdGENは、単一の画像から意味的に高品質な3D文字を生成する革新的なパイプラインである。
3分で体、衣服、毛髪などの分離した意味成分を持つ複雑な3D文字を生成する。
StdGENは、使えるセマンティック分解された3D文字を提供し、幅広いアプリケーションに対して柔軟なカスタマイズを可能にする。
論文 参考訳(メタデータ) (2024-11-08T17:54:18Z) - Make-it-Real: Unleashing Large Multimodal Model for Painting 3D Objects with Realistic Materials [108.59709545364395]
GPT-4Vは、材料を効果的に認識し、記述することができ、詳細な材料ライブラリを構築することができる。
そして、整合した材料を、新たなSVBRDF材料生成の基準として慎重に適用する。
Make-it-Realは、3Dコンテンツ作成ワークフローに合理化された統合を提供する。
論文 参考訳(メタデータ) (2024-04-25T17:59:58Z) - CG3D: Compositional Generation for Text-to-3D via Gaussian Splatting [57.14748263512924]
CG3Dは、スケーラブルな3Dアセットを合成的に生成する手法である。
ガンマ放射場は、オブジェクトの合成を可能にするためにパラメータ化され、意味的および物理的に一貫したシーンを可能にする能力を持っている。
論文 参考訳(メタデータ) (2023-11-29T18:55:38Z) - 3D-GPT: Procedural 3D Modeling with Large Language Models [47.72968643115063]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文 参考訳(メタデータ) (2023-10-19T17:41:48Z) - Towards Language-guided Interactive 3D Generation: LLMs as Layout
Interpreter with Generative Feedback [20.151147653552155]
大きな言語モデル(LLM)は、印象的な推論、会話、ゼロショット生成能力を示している。
本稿では,LLMを3次元レイアウトインタプリタとして統合した言語誘導型対話型3D生成システムLI3Dを提案する。
また,大規模言語と視覚アシスタントのLLaVAを導入し,視覚的側面から生成的なフィードバックを提供することにより,生成したコンテンツの視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-05-25T07:43:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。