論文の概要: BlockFusion: Expandable 3D Scene Generation using Latent Tri-plane
Extrapolation
- arxiv url: http://arxiv.org/abs/2401.17053v2
- Date: Wed, 31 Jan 2024 14:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 11:24:23.104376
- Title: BlockFusion: Expandable 3D Scene Generation using Latent Tri-plane
Extrapolation
- Title(参考訳): BlockFusion:潜伏三面体外挿による拡張可能な3次元シーン生成
- Authors: Zhennan Wu, Yang Li, Han Yan, Taizhang Shang, Weixuan Sun, Senbo Wang,
Ruikai Cui, Weizhe Liu, Hiroyuki Sato, Hongdong Li, and Pan Ji
- Abstract要約: BlockFusionは拡散ベースのモデルで、3Dシーンを単位ブロックとして生成し、シーンを拡張するためにシームレスに新しいブロックを組み込む。
シーン要素の配置と配置を制御するために2次元レイアウトコンディショニング機構を使用する。
実験結果から、BlockFusionは多様な、幾何学的に整合性があり、拘束力のない大きな3Dシーンを生成可能であることが示唆された。
- 参考スコア(独自算出の注目度): 51.030773085422034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present BlockFusion, a diffusion-based model that generates 3D scenes as
unit blocks and seamlessly incorporates new blocks to extend the scene.
BlockFusion is trained using datasets of 3D blocks that are randomly cropped
from complete 3D scene meshes. Through per-block fitting, all training blocks
are converted into the hybrid neural fields: with a tri-plane containing the
geometry features, followed by a Multi-layer Perceptron (MLP) for decoding the
signed distance values. A variational auto-encoder is employed to compress the
tri-planes into the latent tri-plane space, on which the denoising diffusion
process is performed. Diffusion applied to the latent representations allows
for high-quality and diverse 3D scene generation. To expand a scene during
generation, one needs only to append empty blocks to overlap with the current
scene and extrapolate existing latent tri-planes to populate new blocks. The
extrapolation is done by conditioning the generation process with the feature
samples from the overlapping tri-planes during the denoising iterations. Latent
tri-plane extrapolation produces semantically and geometrically meaningful
transitions that harmoniously blend with the existing scene. A 2D layout
conditioning mechanism is used to control the placement and arrangement of
scene elements. Experimental results indicate that BlockFusion is capable of
generating diverse, geometrically consistent and unbounded large 3D scenes with
unprecedented high-quality shapes in both indoor and outdoor scenarios.
- Abstract(参考訳): 本稿では,3次元シーンを単位ブロックとして生成する拡散モデルであるBlockFusionについて述べる。
BlockFusionは、完全な3Dシーンメッシュからランダムにトリミングされた3Dブロックのデータセットを使用してトレーニングされる。
ブロックごとのフィッティングにより、全てのトレーニングブロックは、幾何学的特徴を含む三面体と、符号付き距離値を復号する多層パーセプトロン(MLP)のハイブリッドニューラルネットワークに変換される。
変分オートエンコーダを用いて、三平面を潜在三平面空間に圧縮し、その上で消音拡散処理を行う。
潜在表現に適用された拡散は、高品質で多様な3dシーン生成を可能にする。
シーンを生成中に拡大するには、現在のシーンと重なり合うために空のブロックを追加し、新しいブロックを投入するために既存の潜在トリプレーンを外挿するだけでよい。
補間は、重なり合う三面体の特徴サンプルをデノナイジングイテレーション中に生成プロセスに条件付けすることで行われる。
潜在三面外挿は、既存のシーンと調和して融合する意味論的および幾何学的に意味のある遷移を生み出す。
シーン要素の配置と配置を制御するために2次元レイアウトコンディショニング機構を使用する。
実験結果から,BlockFusionは屋内および屋外の両方のシナリオにおいて,前例のない高品質な形状の多様で幾何学的に整合性があり,非有界な大型3Dシーンを生成できることが示唆された。
関連論文リスト
- XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。
我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。
生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文 参考訳(メタデータ) (2024-11-20T12:02:12Z) - GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - LT3SD: Latent Trees for 3D Scene Diffusion [71.91446143124648]
本稿では,大規模3次元シーン生成のための新しい潜時拡散モデルLT3SDを提案する。
大規模かつ高品質な非条件3Dシーン生成におけるLT3SDの有効性とメリットを実証する。
論文 参考訳(メタデータ) (2024-09-12T16:55:51Z) - NeuSDFusion: A Spatial-Aware Generative Model for 3D Shape Completion, Reconstruction, and Generation [52.772319840580074]
3D形状生成は、特定の条件や制約に固執する革新的な3Dコンテンツを作成することを目的としている。
既存の方法は、しばしば3Dの形状を局所化されたコンポーネントの列に分解し、各要素を分離して扱う。
本研究では2次元平面表現を利用した空間認識型3次元形状生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T04:09:34Z) - Frankenstein: Generating Semantic-Compositional 3D Scenes in One Tri-Plane [51.69069723429115]
Frankensteinは拡散に基づくフレームワークで、セマンティックな3Dシーンを単一のパスで生成できる。
複数の分離された形状を同時に生成し、それぞれが意味的に意味のある部分に対応する。
生成されたシーンは、部分的な再テクスチャ、部屋内のオブジェクトの配置、アバターの布の再ターゲットなど、多くの下流のアプリケーションを促進する。
論文 参考訳(メタデータ) (2024-03-24T16:09:21Z) - Neural Point Cloud Diffusion for Disentangled 3D Shape and Appearance Generation [29.818827785812086]
コントロール可能な3Dアセットの生成は、映画、ゲーム、エンジニアリングにおけるコンテンツ作成やAR/VRなど、多くの実用的なアプリケーションにとって重要である。
本稿では,3次元拡散モデルに対して,ハイブリッド点雲とニューラル放射場アプローチを導入することで,絡み合いを実現するための適切な表現を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:46:27Z) - Free-form 3D Scene Inpainting with Dual-stream GAN [20.186778638697696]
フリーフォーム3Dシーンインペイントという新しいタスクを提示する。
以前の3D補完データセットのシーンとは異なり、提案された塗装データセットには、大きく多様な欠落した領域が含まれている。
図形情報と色情報の両方を融合した2重ストリームジェネレータは、異なる意味境界を生成する。
さらに細部を拡大するため、我々の軽量なデュアルストリーム判別器は、予測されたシーンの形状と色エッジをリアルかつシャープに調整する。
論文 参考訳(メタデータ) (2022-12-16T13:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。