論文の概要: 3D Building Generation in Minecraft via Large Language Models
- arxiv url: http://arxiv.org/abs/2406.08751v1
- Date: Thu, 13 Jun 2024 02:21:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 21:38:10.882190
- Title: 3D Building Generation in Minecraft via Large Language Models
- Title(参考訳): 大規模言語モデルによるMinecraftの3次元構築
- Authors: Shiying Hu, Zengrong Huang, Chengpeng Hu, Jialin Liu,
- Abstract要約: 本稿では,大規模言語モデル(LLM)がサンドボックスゲームであるMinecraftにおける3Dビルディングの生成にどのように貢献するかを考察する。
本稿では,プロンプトの精細化,層間表現の復号化,修復を含む,Minecraft (T2BM) モデルを提案する。
- 参考スコア(独自算出の注目度): 1.9670700129679104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, procedural content generation has exhibited considerable advancements in the domain of 2D game level generation such as Super Mario Bros. and Sokoban through large language models (LLMs). To further validate the capabilities of LLMs, this paper explores how LLMs contribute to the generation of 3D buildings in a sandbox game, Minecraft. We propose a Text to Building in Minecraft (T2BM) model, which involves refining prompts, decoding interlayer representation and repairing. Facade, indoor scene and functional blocks like doors are supported in the generation. Experiments are conducted to evaluate the completeness and satisfaction of buildings generated via LLMs. It shows that LLMs hold significant potential for 3D building generation. Given appropriate prompts, LLMs can generate correct buildings in Minecraft with complete structures and incorporate specific building blocks such as windows and beds, meeting the specified requirements of human users.
- Abstract(参考訳): 近年,スーパーマリオブラザーズやソコバンのような2次元ゲームレベルの領域において,大規模言語モデル(LLM)によるプロシージャコンテンツ生成が著しく進歩している。
そこで本研究では,LLMがサンドボックスゲームであるMinecraftにおける3Dビルディングの生成にどのように貢献するかを考察する。
本稿では,プロンプトの精細化,層間表現の復号化,修復を含む,Minecraft (T2BM) モデルを提案する。
ファサード、屋内シーン、ドアのような機能ブロックが世代でサポートされている。
LLMを通して発生する建物の完全性と満足度を評価する実験を行った。
LLMは3Dビルディング生成に大きな可能性を秘めている。
適切なプロンプトを前提として、LLMはMinecraftで完全な構造を持つ正しいビルを生成でき、窓やベッドのような特定のビルディングブロックを組み込むことで、人間の要求を満たすことができる。
関連論文リスト
- LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models [62.85566496673856]
この研究は、テキストで事前訓練された大規模言語モデル(LLM)の機能を拡張して、統一モデル内で3Dメッシュを生成することを検討する。
主な課題は、3DメッシュデータをLLMがシームレスに処理できる離散トークンに効果的にトークン化することだ。
我々の研究は、LLMがテキストベースのフォーマットで3Dメッシュ生成のための複雑な空間知識を得るために微調整できることを示す最初のものである。
論文 参考訳(メタデータ) (2024-11-14T17:08:23Z) - Retrieval-Augmented Code Generation for Situated Action Generation: A Case Study on Minecraft [18.256529559741075]
Minecraft Collaborative Building Taskでは、2人のプレーヤーが協力する。 アーキテクト(A)がビルダー(B)に指示を与え、3Dブロックを使って特定の構造を組み立てる。
本研究では,大規模言語モデル (LLM) を用いて,ビルダが行う動作の順序を予測する。
論文 参考訳(メタデータ) (2024-06-25T13:43:24Z) - VP-LLM: Text-Driven 3D Volume Completion with Large Language Models through Patchification [56.211321810408194]
大規模言語モデル(LLM)はマルチモーダル理解および生成タスクにおいて大きな可能性を示している。
本稿では,LLMを利用して条件付き3D補完を行うVolume Patch LLM(VP-LLM)を提案する。
以上の結果から,LLMが複雑なテキスト命令を解釈し,3Dオブジェクトを理解する能力は,最先端の拡散に基づく3Dコンプリートモデルに勝るものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-08T18:17:09Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z) - Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation [96.0573187419543]
Chain-of-Thought(CoT)は、大きな言語モデルをステップバイステップで推論し、その論理的推論能力を動機付ける。
大規模言語モデル(LLM)におけるLeap-of-Thought(LoT)能力について検討する。
LoTは、強い結びつきと知識の飛躍を含む、シークエンシャルで創造的なパラダイムである。
論文 参考訳(メタデータ) (2023-12-05T02:41:57Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - Towards Language-guided Interactive 3D Generation: LLMs as Layout
Interpreter with Generative Feedback [20.151147653552155]
大きな言語モデル(LLM)は、印象的な推論、会話、ゼロショット生成能力を示している。
本稿では,LLMを3次元レイアウトインタプリタとして統合した言語誘導型対話型3D生成システムLI3Dを提案する。
また,大規模言語と視覚アシスタントのLLaVAを導入し,視覚的側面から生成的なフィードバックを提供することにより,生成したコンテンツの視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-05-25T07:43:39Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Level Generation Through Large Language Models [3.620115940532283]
大きな言語モデル(LLM)は、自然言語によるトレーニングを活用して、ストーリーを書いたり、コードを作ったり、質問に答えることのできる強力なツールです。
しかし、彼らは機能的なビデオゲームレベルを生成できるだろうか?
複雑な機能的制約と1次元以上の空間的関係を持つゲームレベルは、LLMがトレーニング中に一般的に見るデータの種類とは大きく異なる。
ゲーム「ソコバン」のレベル生成におけるLLMの使用について検討し、LLMが実際に実現可能であること、およびデータセットサイズとともにその性能が劇的に拡大していることを見出した。
論文 参考訳(メタデータ) (2023-02-11T23:34:42Z) - World-GAN: a Generative Model for Minecraft Worlds [27.221938979891384]
この研究は、Minecraftで機械学習を介してデータ駆動の手続き型コンテンツ生成を実行する最初の方法であるWorld-GANを紹介する。
GAN(Generative Adversarial Network)アーキテクチャをベースとして,任意のサンプルから任意のサイズの世界スニペットを作成できる。
論文 参考訳(メタデータ) (2021-06-18T14:45:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。