論文の概要: 3D-GPT: Procedural 3D Modeling with Large Language Models
- arxiv url: http://arxiv.org/abs/2310.12945v1
- Date: Thu, 19 Oct 2023 17:41:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 13:55:48.767819
- Title: 3D-GPT: Procedural 3D Modeling with Large Language Models
- Title(参考訳): 3D-GPT:大規模言語モデルを用いた手続き型3Dモデリング
- Authors: Chunyi Sun, Junlin Han, Weijian Deng, Xinlong Wang, Zishan Qin,
Stephen Gould
- Abstract要約: 命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
- 参考スコア(独自算出の注目度): 50.57513088909881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the pursuit of efficient automated content creation, procedural
generation, leveraging modifiable parameters and rule-based systems, emerges as
a promising approach. Nonetheless, it could be a demanding endeavor, given its
intricate nature necessitating a deep understanding of rules, algorithms, and
parameters. To reduce workload, we introduce 3D-GPT, a framework utilizing
large language models~(LLMs) for instruction-driven 3D modeling. 3D-GPT
positions LLMs as proficient problem solvers, dissecting the procedural 3D
modeling tasks into accessible segments and appointing the apt agent for each
task. 3D-GPT integrates three core agents: the task dispatch agent, the
conceptualization agent, and the modeling agent. They collaboratively achieve
two objectives. First, it enhances concise initial scene descriptions, evolving
them into detailed forms while dynamically adapting the text based on
subsequent instructions. Second, it integrates procedural generation,
extracting parameter values from enriched text to effortlessly interface with
3D software for asset creation. Our empirical investigations confirm that
3D-GPT not only interprets and executes instructions, delivering reliable
results but also collaborates effectively with human designers. Furthermore, it
seamlessly integrates with Blender, unlocking expanded manipulation
possibilities. Our work highlights the potential of LLMs in 3D modeling,
offering a basic framework for future advancements in scene generation and
animation.
- Abstract(参考訳): 効率的な自動コンテンツ作成の追求において、修正可能なパラメータとルールベースのシステムを活用する手続き生成が有望なアプローチとして現れている。
それにもかかわらず、規則、アルゴリズム、パラメータの深い理解を必要とする複雑な性質を考えると、それは要求される努力かもしれない。
3d-gptは,命令駆動型3dモデリングのための大規模言語モデル~(llms)を活用したフレームワークである。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
3D-GPTは、タスクディスパッチエージェント、概念化エージェント、モデリングエージェントの3つのコアエージェントを統合する。
彼らは共同で2つの目標を達成する。
まず、簡潔な初期シーン記述を強化し、後続の指示に基づいてテキストを動的に適応させながら、詳細な形式に発展させる。
第二に、プロシージャ生成を統合し、リッチテキストからパラメータ値を抽出し、3Dソフトウェアに精通してアセット生成を行う。
実験の結果,3d-gptは命令を解釈し実行し,信頼性の高い結果を提供するだけでなく,人間設計者と効果的に連携できることが確認された。
さらに、blenderとシームレスに統合され、操作可能性の拡張をアンロックする。
本研究は3次元モデリングにおけるLLMの可能性を強調し,シーン生成とアニメーションの今後の進歩のための基本的なフレームワークを提供する。
関連論文リスト
- PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via
Foundation Models [53.45712917347696]
我々は、市販の視覚基盤モデルを利用して、3Dシーン認識タスクに対処する、新しいトレーニングフリーパラダイムであるPointSegを提案する。
PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。
このアプローチは,ScanNet,ScanNet++,KITTI-360データセット上の13.4$%,11.3$%,12$%のmAPで最先端のスペシャリストモデルを大幅に上回る。
論文 参考訳(メタデータ) (2024-03-11T03:28:20Z) - GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided
Generative Gaussian Splatting [54.39663556987393]
GALA3D, GALA3D, 生成3D GAussian, LAyout-guided control, for effective compositional text-to-3D generation。
GALA3Dは、最先端のシーンレベルの3Dコンテンツ生成と制御可能な編集のための、ユーザフレンドリーでエンドツーエンドのフレームワークである。
論文 参考訳(メタデータ) (2024-02-11T13:40:08Z) - 3D-PreMise: Can Large Language Models Generate 3D Shapes with Sharp
Features and Parametric Control? [8.893200442359518]
本稿では,大規模言語モデルを用いてテキスト駆動型3次元形状を生成するフレームワークを提案する。
産業形状の3次元パラメトリックモデリングに適したデータセットである3D-PreMiseを提案する。
論文 参考訳(メタデータ) (2024-01-12T08:07:52Z) - En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D
Synthetic Data [36.51674664590734]
本研究では,高品質な3次元アバターの小型化を図ったEn3Dを提案する。
従来の3Dデータセットの不足や、視角が不均衡な限られた2Dコレクションと異なり、本研究の目的は、ゼロショットで3D人間を作れる3Dの開発である。
論文 参考訳(メタデータ) (2024-01-02T12:06:31Z) - CG3D: Compositional Generation for Text-to-3D via Gaussian Splatting [57.14748263512924]
CG3Dは、スケーラブルな3Dアセットを合成的に生成する手法である。
ガンマ放射場は、オブジェクトの合成を可能にするためにパラメータ化され、意味的および物理的に一貫したシーンを可能にする能力を持っている。
論文 参考訳(メタデータ) (2023-11-29T18:55:38Z) - SPiC-E : Structural Priors in 3D Diffusion Models using Cross-Entity
Attention [10.400213716661773]
本研究では,3次元拡散モデルに構造的ガイダンスを加えるニューラルネットワークSPiC-Eを提案する。
提案手法は,3次元スタイリゼーション,意味的形状の編集,テキスト条件の抽象化-to-3Dなど,様々なアプリケーションをサポートする。
論文 参考訳(メタデータ) (2023-11-29T17:36:49Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - GET3D: A Generative Model of High Quality 3D Textured Shapes Learned
from Images [72.15855070133425]
本稿では,複雑なトポロジ,リッチな幾何学的ディテール,高忠実度テクスチャを備えたExplicit Textured 3Dメッシュを直接生成する生成モデルであるGET3Dを紹介する。
GET3Dは、車、椅子、動物、バイク、人間キャラクターから建物まで、高品質な3Dテクスチャメッシュを生成することができる。
論文 参考訳(メタデータ) (2022-09-22T17:16:19Z) - Translating a Visual LEGO Manual to a Machine-Executable Plan [26.0127179598152]
本研究では,人間設計者が作成したイメージベース・ステップ・バイ・ステップ・アセンブリ・マニュアルを機械解釈可能な命令に変換する問題について検討する。
本稿では,手動画像から組立ステップを再構築する新しい学習ベースフレームワークMEPNetを提案する。
論文 参考訳(メタデータ) (2022-07-25T23:35:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。