論文の概要: Dream-Cubed: Controllable Generative Modeling in Minecraft by Training on Billions of Cubes
- arxiv url: http://arxiv.org/abs/2604.22847v1
- Date: Wed, 22 Apr 2026 00:46:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.984903
- Title: Dream-Cubed: Controllable Generative Modeling in Minecraft by Training on Billions of Cubes
- Title(参考訳): Dream-Cubed: 数十億キューブのトレーニングによるMinecraftの制御可能な生成モデリング
- Authors: Tim Merino, Sam Earle, Ryunosuke Iwai, Julian Togelius, Edoardo Cetin,
- Abstract要約: 我々は,Minecraftの大規模なデータセットであるDream-Cubedを,ボクセル解像度で紹介する。
Dream-Cubedは、プロシージャのバイオメ地形と人間による地図の混成から数千億枚ものトークンで構成されている。
このデータセットを用いて、ボクセル生成のための3次元拡散モデルの最初の大規模研究を行う。
- 参考スコア(独自算出の注目度): 14.861822164650967
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce Dream-Cubed, a large-scale dataset of Minecraft worlds at voxel resolution, and a family of models using cubes as powerful compositional units for efficient generation of interactive 3D environments. Dream-Cubed comprises tens of billions of tokens from a carefully curated mixture of procedural biome terrain and high-quality human-authored maps. We use this dataset to conduct the first large-scale study of 3D diffusion models for voxel generation, analyzing discrete and continuous diffusion formulations, data compositions, and architectural design choices. Our models operate directly in the space of blocks, enabling efficient and semantically grounded generation while supporting interactive user workflows such as inpainting and outpainting from user-authored blocks. To quantitatively evaluate our models, we adapt the FID metric to assess semantic differences between real and generated world renderings, and validate generation quality through a human preference study. We release the full dataset, code, and all our pretrained models, which we hope will provide a foundation for future research in efficient generative modeling for structured, interactive 3D environments.
- Abstract(参考訳): ボクセル解像度のMinecraft世界の大規模なデータセットであるDream-Cubedと、インタラクティブな3D環境を効率的に生成するための強力な構成単位として立方体を用いたモデルのファミリーを紹介する。
Dream-Cubedは、プロシージャのバイオメ地形と高品質な人間による地図を慎重にキュレートした、何千億ものトークンで構成されている。
このデータセットを用いて、ボクセル生成のための3次元拡散モデルの最初の大規模研究を行い、離散的かつ連続的な拡散の定式化、データ構成、アーキテクチャ設計の選択を分析する。
我々のモデルはブロックの空間で直接動作し、効率的なセマンティック・グラウンドド・ジェネレーションを可能にしながら、ユーザ認可ブロックからのインペインティングやアウトペインティングといったインタラクティブなユーザ・ワークフローをサポートします。
実世界レンダリングと実世界レンダリングのセマンティックな差異を定量的に評価するためにFIDメトリクスを適用し,人間の嗜好調査を通じて生成品質を評価する。
構造化されたインタラクティブな3D環境のための効率的な生成モデリングに関する、将来の研究のための基盤を提供したいと思っています。
関連論文リスト
- PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models [41.23359540842301]
PoseDreamerは,3Dメッシュアノテーションを備えた合成データセットを生成する,新たなパイプラインだ。
我々は50万以上の高品質な合成サンプルを生成し、画質の指標を76%改善した。
論文 参考訳(メタデータ) (2026-03-30T17:59:18Z) - ArtLLM: Generating Articulated Assets via 3D LLM [19.814132638278547]
ArtLLMは、完全な3Dメッシュから直接高品質な調音資産を生成するための新しいフレームワークである。
コアとなるのは,大規模な調音データセットに基づいてトレーニングされた,3Dマルチモーダルな大規模言語モデルだ。
実験の結果,ArtLLMは部品配置精度と接合予測の両方で最先端の手法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2026-03-01T15:07:46Z) - Textured Mesh Saliency: Bridging Geometry and Texture for Human Perception in 3D Graphics [50.23625950905638]
6自由度(6-DOF)VR環境下での革新的な視線追跡実験により構築したテクスチャメッシュ・サリエンシのための新しいデータセットを提案する。
本モデルでは,各三角形の面を個々の単位として扱い,各局所表面領域の重要性を反映した塩分濃度値を割り当てることで,テクスチャメッシュ表面の塩分濃度マップを推定する。
論文 参考訳(メタデータ) (2024-12-11T08:27:33Z) - Diffusion Models are Efficient Data Generators for Human Mesh Recovery [55.37787289869703]
生成モデルにより生成された合成データはCGレンダリングデータと相補的であることを示す。
我々はHumanWildと呼ばれる最近の拡散モデルに基づく効率的なデータ生成パイプラインを提案する。
われわれの研究は、人間の3Dリカバリを現場に拡大するための道を開くかもしれない。
論文 参考訳(メタデータ) (2024-03-17T06:31:16Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。