論文の概要: Scaffold Diffusion: Sparse Multi-Category Voxel Structure Generation with Discrete Diffusion
- arxiv url: http://arxiv.org/abs/2509.00062v2
- Date: Wed, 03 Sep 2025 01:56:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.03992
- Title: Scaffold Diffusion: Sparse Multi-Category Voxel Structure Generation with Discrete Diffusion
- Title(参考訳): スキャッフル拡散:離散拡散を用いたスパースマルチキャテゴリーボクセル構造生成
- Authors: Justin Jung,
- Abstract要約: スパースマルチカテゴリ3Dボクセル構造のための生成モデルであるScaffold Diffusionを紹介する。
ボクセルをトークンとして扱うことで、Scaffold Diffusionは離散拡散言語モデルを使用して3Dボクセル構造を生成する。
そこで,Scaffold Diffusionは98%以上の間隔でトレーニングした場合でも,現実的でコヒーレントな構造を生成することを示す。
- 参考スコア(独自算出の注目度): 1.2691047660244335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating realistic sparse multi-category 3D voxel structures is difficult due to the cubic memory scaling of voxel structures and moreover the significant class imbalance caused by sparsity. We introduce Scaffold Diffusion, a generative model designed for sparse multi-category 3D voxel structures. By treating voxels as tokens, Scaffold Diffusion uses a discrete diffusion language model to generate 3D voxel structures. We show that discrete diffusion language models can be extended beyond inherently sequential domains such as text to generate spatially coherent 3D structures. We evaluate on Minecraft house structures from the 3D-Craft dataset and demonstrate that, unlike prior baselines and an auto-regressive formulation, Scaffold Diffusion produces realistic and coherent structures even when trained on data with over 98% sparsity. We provide an interactive viewer where readers can visualize generated samples and the generation process: https://scaffold.deepexploration.org/
- Abstract(参考訳): ボクセル構造の3次記憶スケーリングや,スパーシティによるクラス不均衡などにより,現実的なスパース・マルチカテゴリの3次元ボクセル構造の生成は困難である。
スパースマルチカテゴリ3Dボクセル構造のための生成モデルであるScaffold Diffusionを紹介する。
ボクセルをトークンとして扱うことで、Scaffold Diffusionは離散拡散言語モデルを使用して3Dボクセル構造を生成する。
離散拡散言語モデルは、テキストなどの本質的にシーケンシャルな領域を超えて拡張され、空間的コヒーレントな3D構造を生成することができることを示す。
我々は、3D-CraftデータセットからMinecraftのハウス構造を評価し、従来のベースラインや自動回帰式とは異なり、Scaffold Diffusionは98%以上の空間性を持つデータでトレーニングされた場合でも、現実的で一貫性のある構造を生成することを示した。
読者が生成されたサンプルと生成プロセスを視覚化できるインタラクティブなビューアを提供する。
関連論文リスト
- QuadricFormer: Scene as Superquadrics for 3D Semantic Occupancy Prediction [49.75084732129701]
3D占有予測は、堅牢な自動運転システムにとって不可欠である。
既存の手法のほとんどは、密度の高いボクセルベースのシーン表現を使用している。
効率的な3次元占有予測のためのスーパークワッドリックモデルであるQuadricFormerを提案する。
論文 参考訳(メタデータ) (2025-06-12T17:59:45Z) - EvolvED: Evolutionary Embeddings to Understand the Generation Process of Diffusion Models [14.582985391135232]
拡散モデルは、ノイズから画像を生成するために反復的な改善に依存している。
Evolvedは拡散モデルにおける反復生成過程の全体像を提示する。
Central to Evolvedは、意味的関係を維持しながら反復的なステップを符号化する新しい進化的埋め込みアルゴリズムである。
論文 参考訳(メタデータ) (2024-06-25T11:05:26Z) - Navigating the Structured What-If Spaces: Counterfactual Generation via
Structured Diffusion [20.20945739504847]
本稿では,構造データ中の反現実的説明を生成するために拡散を利用した最初のプラグアンドプレイフレームワークであるStructured Counterfactual diffuser(SCD)を紹介する。
実験の結果, 既存の最先端技術と比較して高い妥当性を示すだけでなく, 近接性や多様性も著しく向上していることがわかった。
論文 参考訳(メタデータ) (2023-12-21T07:05:21Z) - Surf-D: Generating High-Quality Surfaces of Arbitrary Topologies Using Diffusion Models [83.35835521670955]
Surf-Dは任意の位相を持つ表面として高品質な3次元形状を生成する新しい方法である。
非符号距離場(UDF)を曲面表現として用いて任意の位相を許容する。
また、ポイントベースのAutoEncoderを用いて、UDFを正確に符号化するためのコンパクトで連続的な潜在空間を学習する新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2023-11-28T18:56:01Z) - Pyramid Diffusion for Fine 3D Large Scene Generation [56.00726092690535]
拡散モデルは2次元画像と小型3次元オブジェクトの生成において顕著な結果を示した。
大規模な3Dシーンの合成への応用はめったに研究されていない。
本稿では,大規模拡散モデルを用いて,高品質な屋外シーンを段階的に生成するフレームワークであるPraamid Discrete Diffusion Model (PDD)を紹介する。
論文 参考訳(メタデータ) (2023-11-20T11:24:21Z) - T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified
Visual Modalities [69.16656086708291]
拡散確率場(DPF)は、距離空間上で定義された連続関数の分布をモデル化する。
本稿では,局所構造学習に着目したビューワイズサンプリングアルゴリズムによる新しいモデルを提案する。
モデルは、複数のモダリティを統一しながら、高解像度のデータを生成するためにスケールすることができる。
論文 参考訳(メタデータ) (2023-05-24T03:32:03Z) - Unsupervised Discovery of 3D Hierarchical Structure with Generative
Diffusion Features [22.657405088126012]
拡散モデルの特徴は3次元バイオメディカル画像において異なる階層レベルを捉えている。
我々は3次元ボリュームを意味のあるネストされたサブボリュームに分解することを奨励する予測的教師なしセグメンテーションネットワークを訓練する。
われわれのモデルは、既存の教師なし構造発見手法よりも、難解な合成データセットや現実世界の脳腫瘍MRIデータセットよりも優れた性能を達成している。
論文 参考訳(メタデータ) (2023-04-28T19:37:17Z) - A Structure-Guided Diffusion Model for Large-Hole Image Completion [85.61681358977266]
画像中の大きな穴を埋める構造誘導拡散モデルを開発した。
本手法は,最先端の手法と比較して,優れた,あるいは同等の視覚的品質を実現する。
論文 参考訳(メタデータ) (2022-11-18T18:59:01Z) - Structured Denoising Diffusion Models in Discrete State-Spaces [15.488176444698404]
本稿では離散化拡散確率モデル(D3PM)を離散データに適用する。
遷移行列の選択は、画像およびテキスト領域における結果の改善につながる重要な設計決定である。
テキストでは、このモデルクラスは、LM1B上の大きな語彙にスケールしながら、文字レベルのテキスト生成に強い結果をもたらす。
論文 参考訳(メタデータ) (2021-07-07T04:11:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。