論文の概要: OctFusion: Octree-based Diffusion Models for 3D Shape Generation
- arxiv url: http://arxiv.org/abs/2408.14732v1
- Date: Tue, 27 Aug 2024 01:55:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 15:14:31.890919
- Title: OctFusion: Octree-based Diffusion Models for 3D Shape Generation
- Title(参考訳): オクタフュージョン:3次元形状生成のためのオクタリーベース拡散モデル
- Authors: Bojun Xiong, Si-Tong Wei, Xin-Yang Zheng, Yan-Pei Cao, Zhouhui Lian, Peng-Shuai Wang,
- Abstract要約: OctFusionは1台のNvidia 4090 GPUで2.5秒で任意の解像度で3D形状を生成することができる。
OctFusionは、テクスチャメッシュ生成のための高品質なカラーフィールドと、テキストプロンプト、スケッチ、またはカテゴリラベル上の高品質な3D条件付き形状を生成することで、拡張可能で柔軟性がある。
- 参考スコア(独自算出の注目度): 19.944789186191763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have emerged as a popular method for 3D generation. However, it is still challenging for diffusion models to efficiently generate diverse and high-quality 3D shapes. In this paper, we introduce OctFusion, which can generate 3D shapes with arbitrary resolutions in 2.5 seconds on a single Nvidia 4090 GPU, and the extracted meshes are guaranteed to be continuous and manifold. The key components of OctFusion are the octree-based latent representation and the accompanying diffusion models. The representation combines the benefits of both implicit neural representations and explicit spatial octrees and is learned with an octree-based variational autoencoder. The proposed diffusion model is a unified multi-scale U-Net that enables weights and computation sharing across different octree levels and avoids the complexity of widely used cascaded diffusion schemes. We verify the effectiveness of OctFusion on the ShapeNet and Objaverse datasets and achieve state-of-the-art performances on shape generation tasks. We demonstrate that OctFusion is extendable and flexible by generating high-quality color fields for textured mesh generation and high-quality 3D shapes conditioned on text prompts, sketches, or category labels. Our code and pre-trained models are available at \url{https://github.com/octree-nn/octfusion}.
- Abstract(参考訳): 拡散モデルは3次元生成の一般的な方法として現れている。
しかし、拡散モデルが多種多様な高品質な3次元形状を効率的に生成することは依然として困難である。
本稿では,Nvidia 4090 GPU上で任意の解像度で2.5秒で3次元形状を生成可能なOctFusionを提案する。
OctFusionの重要な構成要素は、オクツリーに基づく潜在表現と、それに付随する拡散モデルである。
この表現は暗黙の神経表現と明示的な空間オクツリーの両方の利点を組み合わせており、オクツリーに基づく変分オートエンコーダで学習される。
提案した拡散モデルは,様々なオクツリーレベルにわたる重みと計算の共有を可能にし,広く用いられている拡散スキームの複雑さを回避する,統一されたマルチスケールU-Netである。
本研究では,ShapeNetおよびObjaverseデータセットにおけるOctFusionの有効性を検証するとともに,形状生成タスクにおける最先端性能を実現する。
テクスチャメッシュ生成のための高品質なカラーフィールドと,テキストプロンプトやスケッチ,カテゴリラベルに条件付された高品質な3D形状を生成することで,OctFusionは拡張可能かつ柔軟であることを示す。
私たちのコードと事前トレーニングされたモデルは、 \url{https://github.com/octree-nn/octfusion}で利用可能です。
関連論文リスト
- Make-A-Shape: a Ten-Million-scale 3D Shape Model [52.701745578415796]
本稿では,大規模な効率的なトレーニングを目的とした新しい3次元生成モデルであるMake-A-Shapeを紹介する。
まずウェーブレットツリー表現を革新し、サブバンド係数フィルタリングスキームを定式化して形状をコンパクトに符号化する。
我々は、粗いウェーブレット係数の生成を効果的に学習するために、我々のモデルを訓練するためのサブバンド適応型トレーニング戦略を導出する。
論文 参考訳(メタデータ) (2024-01-20T00:21:58Z) - Neural Point Cloud Diffusion for Disentangled 3D Shape and Appearance Generation [29.818827785812086]
コントロール可能な3Dアセットの生成は、映画、ゲーム、エンジニアリングにおけるコンテンツ作成やAR/VRなど、多くの実用的なアプリケーションにとって重要である。
本稿では,3次元拡散モデルに対して,ハイブリッド点雲とニューラル放射場アプローチを導入することで,絡み合いを実現するための適切な表現を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:46:27Z) - TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion
Models [77.85129451435704]
大規模誘導画像拡散モデルを用いて3次元テクスチャを合成する手法を提案する。
具体的には、潜時拡散モデルを利用し、セット・デノナイジング・モデルと集合・デノナイジング・テキスト・マップを適用する。
論文 参考訳(メタデータ) (2023-10-20T19:15:29Z) - Breathing New Life into 3D Assets with Generative Repainting [74.80184575267106]
拡散ベースのテキスト・ツー・イメージ・モデルは、ビジョン・コミュニティ、アーティスト、コンテンツ・クリエーターから大きな注目を集めた。
近年の研究では、拡散モデルとニューラルネットワークの絡み合いを利用した様々なパイプラインが提案されている。
予備訓練された2次元拡散モデルと標準3次元ニューラルラジアンスフィールドのパワーを独立したスタンドアロンツールとして検討する。
我々のパイプラインはテクスチャ化されたメッシュや無テクスチャのメッシュのような、レガシなレンダリング可能な幾何学を受け入れ、2D生成の洗練と3D整合性強化ツール間の相互作用をオーケストレーションします。
論文 参考訳(メタデータ) (2023-09-15T16:34:51Z) - HoloFusion: Towards Photo-realistic 3D Generative Modeling [77.03830223281787]
拡散に基づく画像生成装置は、高品質で多様なサンプルを作成できるようになったが、その成功はまだ3D生成に完全に変換されていない。
提案するHoloFusionは,高忠実度,高可塑性,多種多様な3Dサンプルを作成するために,これらのアプローチを最大限に組み合わせた手法である。
論文 参考訳(メタデータ) (2023-08-28T01:19:33Z) - DiffFacto: Controllable Part-Based 3D Point Cloud Generation with Cross
Diffusion [68.39543754708124]
DiffFactoは,部品レベルの制御で形状の分布を学習する新しい確率的生成モデルである。
実験により,複数の制御軸を持つ新しい形状を生成可能であることが示された。
最先端のパートレベルの生成品質を実現し、可塑性かつコヒーレントな形状を生成する。
論文 参考訳(メタデータ) (2023-05-03T06:38:35Z) - 3D Neural Field Generation using Triplane Diffusion [37.46688195622667]
ニューラルネットワークの3次元認識のための効率的な拡散ベースモデルを提案する。
当社のアプローチでは,ShapeNetメッシュなどのトレーニングデータを,連続的占有フィールドに変換することによって前処理する。
本論文では,ShapeNetのオブジェクトクラスにおける3D生成の現状について述べる。
論文 参考訳(メタデータ) (2022-11-30T01:55:52Z) - Magic3D: High-Resolution Text-to-3D Content Creation [78.40092800817311]
DreamFusionは最近、NeRF(Neural Radiance Fields)を最適化するための事前訓練されたテキスト-画像拡散モデルの有用性を実証した。
本稿では,2段階最適化フレームワークを用いて,これらの制約に対処する。
Magic3Dと呼ばれる我々の手法は、DreamFusionより2倍高速な高品質な3Dメッシュモデルを40分で作成できる。
論文 参考訳(メタデータ) (2022-11-18T18:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。