論文の概要: 3Dify: a Framework for Procedural 3D-CG Generation Assisted by LLMs Using MCP and RAG
- arxiv url: http://arxiv.org/abs/2510.04536v1
- Date: Mon, 06 Oct 2025 07:00:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.717269
- Title: 3Dify: a Framework for Procedural 3D-CG Generation Assisted by LLMs Using MCP and RAG
- Title(参考訳): 3Dify:MPPとRAGを用いたLCMの支援による手続き型3D-CG生成フレームワーク
- Authors: Shun-ichiro Hayashi, Daichi Mukunoki, Tetsuya Hoshino, Satoshi Ohshima, Takahiro Katagiri,
- Abstract要約: 3Difyは大規模言語モデル(LLM)を利用した手続き型3Dコンピュータグラフィックス(3D-CG)生成フレームワークである
3DifyはAIアプリケーション開発のためのオープンソースプラットフォームであるDify上に構築されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes "3Dify," a procedural 3D computer graphics (3D-CG) generation framework utilizing Large Language Models (LLMs). The framework enables users to generate 3D-CG content solely through natural language instructions. 3Dify is built upon Dify, an open-source platform for AI application development, and incorporates several state-of-the-art LLM-related technologies such as the Model Context Protocol (MCP) and Retrieval-Augmented Generation (RAG). For 3D-CG generation support, 3Dify automates the operation of various Digital Content Creation (DCC) tools via MCP. When DCC tools do not support MCP-based interaction, the framework employs the Computer-Using Agent (CUA) method to automate Graphical User Interface (GUI) operations. Moreover, to enhance image generation quality, 3Dify allows users to provide feedback by selecting preferred images from multiple candidates. The LLM then learns variable patterns from these selections and applies them to subsequent generations. Furthermore, 3Dify supports the integration of locally deployed LLMs, enabling users to utilize custom-developed models and to reduce both time and monetary costs associated with external API calls by leveraging their own computational resources.
- Abstract(参考訳): 本稿では,Large Language Models(LLMs)を利用した手続き型3Dコンピュータグラフィックス(3D-CG)生成フレームワークである"3Dify"を提案する。
このフレームワークは、自然言語の命令だけで3D-CGコンテンツを作成できる。
3DifyはAIアプリケーション開発のためのオープンソースプラットフォームであるDify上に構築されており、Model Context Protocol(MCP)やRetrieval-Augmented Generation(RAG)など、最先端のLLM関連技術が組み込まれている。
3D-CG生成のサポートのため、3DifyはMPPを介して様々なデジタルコンテンツ作成(DCC)ツールの操作を自動化する。
DCCツールがMPPベースのインタラクションをサポートしていない場合、このフレームワークはComputer-Using Agent(CUA)メソッドを使用してグラフィカルユーザインタフェース(GUI)操作を自動化する。
さらに、画像生成品質を向上させるため、3Difyでは、複数の候補から好まれる画像を選択することでフィードバックを提供することができる。
LLMはその後、これらの選択から可変パターンを学び、その後の世代に適用する。
さらに3Difyは、ローカルにデプロイされたLLMの統合をサポートしており、ユーザーはカスタム開発モデルを利用することができ、独自の計算資源を利用することで、外部API呼び出しに関連する時間と金銭的コストを削減できる。
関連論文リスト
- CMD: Controllable Multiview Diffusion for 3D Editing and Progressive Generation [58.46364872103992]
入力画像から3Dモデルを生成するとともに、3Dモデルの各コンポーネントのフレキシブルな局所的編集を可能にするCMDと呼ばれる新しい手法を提案する。
CMDでは、3D生成を条件付き多視点拡散モデルとして定式化し、既存のまたは既知の部分を条件として取り、編集または追加されたコンポーネントを生成する。
論文 参考訳(メタデータ) (2025-05-11T14:54:26Z) - Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion [59.00571588016896]
3Dモデリングでは、デザイナはしばしば既存の3Dモデルを使って新しいものを作成する。
このプラクティスは、参照付加3D生成に拡散を利用する新しい生成モデルであるPhidiasの開発にインスピレーションを与えている。
論文 参考訳(メタデータ) (2024-09-17T17:59:33Z) - iControl3D: An Interactive System for Controllable 3D Scene Generation [57.048647153684485]
iControl3Dは、ユーザがカスタマイズ可能な3Dシーンを正確なコントロールで生成およびレンダリングできるようにする、新しいインタラクティブシステムである。
我々は3Dメッシュを仲介プロキシとして利用し、個別の2D拡散生成画像を結合的で統一された3Dシーン表現に反復的にマージする。
私たちのニューラルレンダリングインターフェースは、ユーザが自分のシーンのラディアンスフィールドをオンラインで構築し、シーン全体をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-08-03T06:35:09Z) - Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning [52.81032340916171]
Coin3Dを使えば、ユーザーは基本的な形状から組み立てられた粗い幾何学的プロキシを使って3D生成を制御できる。
本手法は,3次元アセット生成タスクにおいて,制御性と柔軟性に優れる。
論文 参考訳(メタデータ) (2024-05-13T17:56:13Z) - 3D-PreMise: Can Large Language Models Generate 3D Shapes with Sharp
Features and Parametric Control? [8.893200442359518]
本稿では,大規模言語モデルを用いてテキスト駆動型3次元形状を生成するフレームワークを提案する。
産業形状の3次元パラメトリックモデリングに適したデータセットである3D-PreMiseを提案する。
論文 参考訳(メタデータ) (2024-01-12T08:07:52Z) - 3D-GPT: Procedural 3D Modeling with Large Language Models [47.72968643115063]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文 参考訳(メタデータ) (2023-10-19T17:41:48Z) - Towards Language-guided Interactive 3D Generation: LLMs as Layout
Interpreter with Generative Feedback [20.151147653552155]
大きな言語モデル(LLM)は、印象的な推論、会話、ゼロショット生成能力を示している。
本稿では,LLMを3次元レイアウトインタプリタとして統合した言語誘導型対話型3D生成システムLI3Dを提案する。
また,大規模言語と視覚アシスタントのLLaVAを導入し,視覚的側面から生成的なフィードバックを提供することにより,生成したコンテンツの視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-05-25T07:43:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。