Fugu-MT 論文翻訳(概要): 3D-GPT: Procedural 3D Modeling with Large Language Models

論文の概要: 3D-GPT: Procedural 3D Modeling with Large Language Models

arxiv url: http://arxiv.org/abs/2310.12945v1
Date: Thu, 19 Oct 2023 17:41:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-20 13:55:48.767819
Title: 3D-GPT: Procedural 3D Modeling with Large Language Models
Title（参考訳）: 3D-GPT:大規模言語モデルを用いた手続き型3Dモデリング
Authors: Chunyi Sun, Junlin Han, Weijian Deng, Xinlong Wang, Zishan Qin, Stephen Gould
Abstract要約: 命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。 3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
参考スコア（独自算出の注目度）: 50.57513088909881
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the pursuit of efficient automated content creation, procedural generation, leveraging modifiable parameters and rule-based systems, emerges as a promising approach. Nonetheless, it could be a demanding endeavor, given its intricate nature necessitating a deep understanding of rules, algorithms, and parameters. To reduce workload, we introduce 3D-GPT, a framework utilizing large language models~(LLMs) for instruction-driven 3D modeling. 3D-GPT positions LLMs as proficient problem solvers, dissecting the procedural 3D modeling tasks into accessible segments and appointing the apt agent for each task. 3D-GPT integrates three core agents: the task dispatch agent, the conceptualization agent, and the modeling agent. They collaboratively achieve two objectives. First, it enhances concise initial scene descriptions, evolving them into detailed forms while dynamically adapting the text based on subsequent instructions. Second, it integrates procedural generation, extracting parameter values from enriched text to effortlessly interface with 3D software for asset creation. Our empirical investigations confirm that 3D-GPT not only interprets and executes instructions, delivering reliable results but also collaborates effectively with human designers. Furthermore, it seamlessly integrates with Blender, unlocking expanded manipulation possibilities. Our work highlights the potential of LLMs in 3D modeling, offering a basic framework for future advancements in scene generation and animation.
Abstract（参考訳）: 効率的な自動コンテンツ作成の追求において、修正可能なパラメータとルールベースのシステムを活用する手続き生成が有望なアプローチとして現れている。それにもかかわらず、規則、アルゴリズム、パラメータの深い理解を必要とする複雑な性質を考えると、それは要求される努力かもしれない。 3d-gptは,命令駆動型3dモデリングのための大規模言語モデル~(llms)を活用したフレームワークである。 3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。 3D-GPTは、タスクディスパッチエージェント、概念化エージェント、モデリングエージェントの3つのコアエージェントを統合する。彼らは共同で2つの目標を達成する。まず、簡潔な初期シーン記述を強化し、後続の指示に基づいてテキストを動的に適応させながら、詳細な形式に発展させる。第二に、プロシージャ生成を統合し、リッチテキストからパラメータ値を抽出し、3Dソフトウェアに精通してアセット生成を行う。実験の結果,3d-gptは命令を解釈し実行し,信頼性の高い結果を提供するだけでなく,人間設計者と効果的に連携できることが確認された。さらに、blenderとシームレスに統合され、操作可能性の拡張をアンロックする。本研究は3次元モデリングにおけるLLMの可能性を強調し,シーン生成とアニメーションの今後の進歩のための基本的なフレームワークを提供する。

関連論文リスト

Unified Semantic Transformer for 3D Scene Understanding [55.415468022487005]
我々は、単一のモデル内に多様な3Dセマンティックタスクを統一する新しいフィードフォワードニューラルネットワークUNITEを紹介する。我々のモデルは、完全なエンドツーエンドで見えないシーンで動作し、完全な3Dセマンティックジオメトリを推測するのにほんの数秒しかかからない。 UNITEはいくつかの異なる意味的タスクにおいて最先端のパフォーマンスを達成し、タスク固有のモデルよりも優れていることを実証する。
論文参考訳（メタデータ） (2025-12-16T12:49:35Z)
AffordBot: 3D Fine-grained Embodied Reasoning via Multimodal Large Language Models [20.05010202296243]
エージェントが3Dシーンの各参照余剰要素、その位置、動きタイプ、動き軸について予測する必要がある。本稿では,MLLM(Multimodal Large Language Models)とCoT(Chere-of-Thought)推論パラダイムを統合した新しいフレームワークであるAffordBotを提案する。 AffordBotは最先端のパフォーマンスを実現し、3Dポイントのクラウド入力とMLLMだけで強力な一般化と物理的根拠を持つ推論を実証する。
論文参考訳（メタデータ） (2025-11-13T06:43:00Z)
ShapeCraft: LLM Agents for Structured, Textured and Interactive 3D Modeling [45.20958044544727]
ShapeCraftはテキストから3D生成のための新しいマルチエージェントフレームワークである。 ShapeCraftは複雑な自然言語をサブタスクの構造化グラフに分解する。エージェントはユーザの入力をGPSに解析し、手続き的モデリングと絵を反復的に洗練して3Dアセットを生成する。
論文参考訳（メタデータ） (2025-10-20T14:51:14Z)
SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文参考訳（メタデータ） (2025-07-31T17:56:55Z)
Aligning Text, Images, and 3D Structure Token-by-Token [8.521599463802637]
構造化3次元シーンにおける自己回帰モデルの可能性について検討する。言語,画像,3Dシーンを整合させる統一LLMフレームワークを提案する。実世界の3Dオブジェクト認識タスクにおけるモデルの有効性を示す。
論文参考訳（メタデータ） (2025-06-09T17:59:37Z)
IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
DecompDreamer: Advancing Structured 3D Asset Generation with Multi-Object Decomposition and Gaussian Splatting [24.719972380079405]
DecompDreamerは高品質な3D合成を生成するために設計されたトレーニングルーチンである。シーンを構成されたコンポーネントとその関係に分解する。オブジェクトの絡み合いが優れている複雑な3D組成物を効果的に生成する。
論文参考訳（メタデータ） (2025-03-15T03:37:25Z)
3D-Grounded Vision-Language Framework for Robotic Task Planning: Automated Prompt Synthesis and Supervised Reasoning [2.6670748466660523]
視覚言語モデル(VLM)はシーン理解と知覚タスクにおいて顕著な成功を収めた。 VLMにはロバストな3Dシーンのローカライズ機能がなく、ロボット操作の精度を制限している。本稿では,2次元画像を点雲にマッピングすることで,2次元プロンプト合成モジュールを統合し,VLM出力を監視するための小さな言語モデル(SLM)を組み込む新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-13T02:40:19Z)
LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models [62.85566496673856]
この研究は、テキストで事前訓練された大規模言語モデル(LLM)の機能を拡張して、統一モデル内で3Dメッシュを生成することを検討する。主な課題は、3DメッシュデータをLLMがシームレスに処理できる離散トークンに効果的にトークン化することだ。我々の研究は、LLMがテキストベースのフォーマットで3Dメッシュ生成のための複雑な空間知識を得るために微調整できることを示す最初のものである。
論文参考訳（メタデータ） (2024-11-14T17:08:23Z)
Story3D-Agent: Exploring 3D Storytelling Visualization with Large Language Models [57.30913211264333]
提案するStory3D-Agentは、提供された物語を3Dレンダリングの可視化に変換する先駆的なアプローチである。プロシージャモデリングを統合することで,複数文字の動作や動きを正確に制御できるだけでなく,多様な装飾的要素も利用できる。我々は,ストーリー3D-Agentを徹底的に評価し,その有効性を検証し,3Dストーリー表現を前進させるための基本的な枠組みを提供した。
論文参考訳（メタデータ） (2024-08-21T17:43:15Z)
Interactive3D: Create What You Want by Interactive 3D Generation [13.003964182554572]
我々はインタラクティブな3D生成のための革新的なフレームワークであるInteractive3Dを紹介した。実験の結果,Interactive3Dは3D生成の制御性と品質を著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-04-25T11:06:57Z)
SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。 SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。 SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-01T21:23:03Z)
Scene-LLM: Extending Language Model for 3D Visual Understanding and Reasoning [24.162598399141785]
Scene-LLMは3次元視覚言語モデルであり、インタラクティブな3次元屋内環境におけるエンボディエージェントの能力を高める。 Scene-LLMを用いた実験は, 密接なキャプション, 質問応答, 対話型プランニングにおいて, 強力な機能を示す。
論文参考訳（メタデータ） (2024-03-18T01:18:48Z)
3D-PreMise: Can Large Language Models Generate 3D Shapes with Sharp Features and Parametric Control? [8.893200442359518]
本稿では,大規模言語モデルを用いてテキスト駆動型3次元形状を生成するフレームワークを提案する。産業形状の3次元パラメトリックモデリングに適したデータセットである3D-PreMiseを提案する。
論文参考訳（メタデータ） (2024-01-12T08:07:52Z)
CG3D: Compositional Generation for Text-to-3D via Gaussian Splatting [57.14748263512924]
CG3Dは、スケーラブルな3Dアセットを合成的に生成する手法である。ガンマ放射場は、オブジェクトの合成を可能にするためにパラメータ化され、意味的および物理的に一貫したシーンを可能にする能力を持っている。
論文参考訳（メタデータ） (2023-11-29T18:55:38Z)
GET3D: A Generative Model of High Quality 3D Textured Shapes Learned from Images [72.15855070133425]
本稿では,複雑なトポロジ,リッチな幾何学的ディテール,高忠実度テクスチャを備えたExplicit Textured 3Dメッシュを直接生成する生成モデルであるGET3Dを紹介する。 GET3Dは、車、椅子、動物、バイク、人間キャラクターから建物まで、高品質な3Dテクスチャメッシュを生成することができる。
論文参考訳（メタデータ） (2022-09-22T17:16:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。