論文の概要: BlockFusion: Expandable 3D Scene Generation using Latent Tri-plane Extrapolation
- arxiv url: http://arxiv.org/abs/2401.17053v4
- Date: Fri, 24 May 2024 03:56:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 23:16:57.572717
- Title: BlockFusion: Expandable 3D Scene Generation using Latent Tri-plane Extrapolation
- Title(参考訳): BlockFusion:潜伏三面体外挿による拡張可能な3次元シーン生成
- Authors: Zhennan Wu, Yang Li, Han Yan, Taizhang Shang, Weixuan Sun, Senbo Wang, Ruikai Cui, Weizhe Liu, Hiroyuki Sato, Hongdong Li, Pan Ji,
- Abstract要約: BlockFusionは拡散ベースのモデルで、3Dシーンを単位ブロックとして生成し、シーンを拡張するためにシームレスに新しいブロックを組み込む。
シーン要素の配置と配置を制御するために2次元レイアウトコンディショニング機構を使用する。
実験結果から、BlockFusionは多様な、幾何学的に整合性があり、拘束力のない大きな3Dシーンを生成可能であることが示唆された。
- 参考スコア(独自算出の注目度): 51.030773085422034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present BlockFusion, a diffusion-based model that generates 3D scenes as unit blocks and seamlessly incorporates new blocks to extend the scene. BlockFusion is trained using datasets of 3D blocks that are randomly cropped from complete 3D scene meshes. Through per-block fitting, all training blocks are converted into the hybrid neural fields: with a tri-plane containing the geometry features, followed by a Multi-layer Perceptron (MLP) for decoding the signed distance values. A variational auto-encoder is employed to compress the tri-planes into the latent tri-plane space, on which the denoising diffusion process is performed. Diffusion applied to the latent representations allows for high-quality and diverse 3D scene generation. To expand a scene during generation, one needs only to append empty blocks to overlap with the current scene and extrapolate existing latent tri-planes to populate new blocks. The extrapolation is done by conditioning the generation process with the feature samples from the overlapping tri-planes during the denoising iterations. Latent tri-plane extrapolation produces semantically and geometrically meaningful transitions that harmoniously blend with the existing scene. A 2D layout conditioning mechanism is used to control the placement and arrangement of scene elements. Experimental results indicate that BlockFusion is capable of generating diverse, geometrically consistent and unbounded large 3D scenes with unprecedented high-quality shapes in both indoor and outdoor scenarios.
- Abstract(参考訳): 我々は,3次元シーンを単位ブロックとして生成し,新たなブロックをシームレスに組み込んでシーンを拡張する拡散モデルであるBlockFusionを提案する。
BlockFusionは、完全な3Dシーンメッシュからランダムにトリミングされた3Dブロックのデータセットを使用してトレーニングされる。
ブロックごとのフィッティングにより、全てのトレーニングブロックは、幾何学的特徴を含む三面体と、符号付き距離値を復号する多層パーセプトロン(MLP)のハイブリッドニューラルネットワークに変換される。
三面体を遅延三面体空間に圧縮するために変分オートエンコーダを用いる。
遅延表現に適用された拡散は、高品質で多様な3Dシーン生成を可能にする。
世代を拡大するためには、空のブロックを付加して現在のシーンと重なるようにし、既存の潜伏三葉機を外挿して新しいブロックをポップアップさせるだけでよい。
補間は、重なり合う三面体の特徴サンプルをデノナイジングイテレーション中に生成プロセスに条件付けすることで行われる。
潜在三面体外挿は、既存のシーンと調和してブレンドする意味論的および幾何学的に意味のある遷移を生み出す。
シーン要素の配置と配置を制御するために2次元レイアウトコンディショニング機構を使用する。
実験結果から,BlockFusionは屋内および屋外の両方のシナリオにおいて,前例のない高品質な形状の多様で幾何学的に整合性があり,非有界な大型3Dシーンを生成できることが示唆された。
関連論文リスト
- NeuSDFusion: A Spatial-Aware Generative Model for 3D Shape Completion, Reconstruction, and Generation [52.772319840580074]
3D形状生成は、特定の条件や制約に固執する革新的な3Dコンテンツを作成することを目的としている。
既存の方法は、しばしば3Dの形状を局所化されたコンポーネントの列に分解し、各要素を分離して扱う。
本研究では2次元平面表現を利用した空間認識型3次元形状生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T04:09:34Z) - Frankenstein: Generating Semantic-Compositional 3D Scenes in One Tri-Plane [51.69069723429115]
Frankensteinは拡散に基づくフレームワークで、セマンティックな3Dシーンを単一のパスで生成できる。
複数の分離された形状を同時に生成し、それぞれが意味的に意味のある部分に対応する。
生成されたシーンは、部分的な再テクスチャ、部屋内のオブジェクトの配置、アバターの布の再ターゲットなど、多くの下流のアプリケーションを促進する。
論文 参考訳(メタデータ) (2024-03-24T16:09:21Z) - Neural Point Cloud Diffusion for Disentangled 3D Shape and Appearance
Generation [31.99100874641616]
コントロール可能な3Dアセットの生成は、映画、ゲーム、エンジニアリングにおけるコンテンツ作成やAR/VRなど、多くの実用的なアプリケーションにとって重要である。
本稿では,3次元拡散モデルに対して,ハイブリッド点雲とニューラル放射場アプローチを導入することで,絡み合いを実現するための適切な表現を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:46:27Z) - TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion
Models [77.85129451435704]
大規模誘導画像拡散モデルを用いて3次元テクスチャを合成する手法を提案する。
具体的には、潜時拡散モデルを利用し、セット・デノナイジング・モデルと集合・デノナイジング・テキスト・マップを適用する。
論文 参考訳(メタデータ) (2023-10-20T19:15:29Z) - HoloFusion: Towards Photo-realistic 3D Generative Modeling [77.03830223281787]
拡散に基づく画像生成装置は、高品質で多様なサンプルを作成できるようになったが、その成功はまだ3D生成に完全に変換されていない。
提案するHoloFusionは,高忠実度,高可塑性,多種多様な3Dサンプルを作成するために,これらのアプローチを最大限に組み合わせた手法である。
論文 参考訳(メタデータ) (2023-08-28T01:19:33Z) - Compositional 3D Scene Generation using Locally Conditioned Diffusion [49.5784841881488]
合成シーン拡散へのアプローチとして,テクスブフォローカライズ条件付き拡散を導入する。
本研究では, スコア蒸留によるテキスト・ツー・3D合成パイプラインを試作し, 関連するベースラインよりも高忠実度で合成3Dシーンを生成できることを示した。
論文 参考訳(メタデータ) (2023-03-21T22:37:16Z) - Free-form 3D Scene Inpainting with Dual-stream GAN [20.186778638697696]
フリーフォーム3Dシーンインペイントという新しいタスクを提示する。
以前の3D補完データセットのシーンとは異なり、提案された塗装データセットには、大きく多様な欠落した領域が含まれている。
図形情報と色情報の両方を融合した2重ストリームジェネレータは、異なる意味境界を生成する。
さらに細部を拡大するため、我々の軽量なデュアルストリーム判別器は、予測されたシーンの形状と色エッジをリアルかつシャープに調整する。
論文 参考訳(メタデータ) (2022-12-16T13:20:31Z) - Semantic Dense Reconstruction with Consistent Scene Segments [33.0310121044956]
RGB-Dシーケンスから高レベルなシーン理解タスクを解くために,RGB-Dシーケンスから高密度なセマンティック3Dシーンを再構築する手法を提案する。
まず、各RGB-Dペアは、カメラ追跡バックボーンに基づいて、一貫して2Dセマンティックマップに分割される。
入力されたRGB-Dシーケンスから未知環境の高密度3Dメッシュモデルを漸進的に生成する。
論文 参考訳(メタデータ) (2021-09-30T03:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。