論文の概要: Frankenstein: Generating Semantic-Compositional 3D Scenes in One Tri-Plane
- arxiv url: http://arxiv.org/abs/2403.16210v2
- Date: Fri, 30 Aug 2024 17:39:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 20:11:53.418059
- Title: Frankenstein: Generating Semantic-Compositional 3D Scenes in One Tri-Plane
- Title(参考訳): Frankenstein: セマンティック・コメンデーショナルな3Dシーンを1つのトリプレーンで生成する
- Authors: Han Yan, Yang Li, Zhennan Wu, Shenzhou Chen, Weixuan Sun, Taizhang Shang, Weizhe Liu, Tian Chen, Xiaqiang Dai, Chao Ma, Hongdong Li, Pan Ji,
- Abstract要約: Frankensteinは拡散に基づくフレームワークで、セマンティックな3Dシーンを単一のパスで生成できる。
複数の分離された形状を同時に生成し、それぞれが意味的に意味のある部分に対応する。
生成されたシーンは、部分的な再テクスチャ、部屋内のオブジェクトの配置、アバターの布の再ターゲットなど、多くの下流のアプリケーションを促進する。
- 参考スコア(独自算出の注目度): 51.69069723429115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Frankenstein, a diffusion-based framework that can generate semantic-compositional 3D scenes in a single pass. Unlike existing methods that output a single, unified 3D shape, Frankenstein simultaneously generates multiple separated shapes, each corresponding to a semantically meaningful part. The 3D scene information is encoded in one single tri-plane tensor, from which multiple Singed Distance Function (SDF) fields can be decoded to represent the compositional shapes. During training, an auto-encoder compresses tri-planes into a latent space, and then the denoising diffusion process is employed to approximate the distribution of the compositional scenes. Frankenstein demonstrates promising results in generating room interiors as well as human avatars with automatically separated parts. The generated scenes facilitate many downstream applications, such as part-wise re-texturing, object rearrangement in the room or avatar cloth re-targeting. Our project page is available at: https://wolfball.github.io/frankenstein/.
- Abstract(参考訳): 拡散に基づくフレームワークであるFrankensteinについて述べる。
単一の統一された3次元形状を出力する既存の方法とは異なり、フランケンシュタインは同時に複数の分離された形状を生成し、それぞれが意味的に意味のある部分に対応する。
3Dシーン情報を1つの3平面テンソルに符号化し、そこから複数のSDFフィールドをデコードして構成形状を表現する。
トレーニング中、オートエンコーダは三面体を潜在空間に圧縮し、次に、合成シーンの分布を近似するために偏極拡散過程を用いる。
フランケンシュタインは、部屋の内部と、自動的に分離された部分を持つ人間のアバターを生成するという有望な結果を実証している。
生成されたシーンは、部分的な再テクスチャ、部屋内のオブジェクトの配置、アバターの布の再ターゲットなど、多くの下流のアプリケーションを促進する。
私たちのプロジェクトページは、https://wolfball.github.io/frankenstein/.com/で公開されています。
関連論文リスト
- LT3SD: Latent Trees for 3D Scene Diffusion [71.91446143124648]
本稿では,大規模3次元シーン生成のための新しい潜時拡散モデルLT3SDを提案する。
大規模かつ高品質な非条件3Dシーン生成におけるLT3SDの有効性とメリットを実証する。
論文 参考訳(メタデータ) (2024-09-12T16:55:51Z) - Disentangled 3D Scene Generation with Layout Learning [109.03233745767062]
本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。
私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。
単純さにもかかわらず、我々のアプローチは個々のオブジェクトに3Dシーンを生成することに成功している。
論文 参考訳(メタデータ) (2024-02-26T18:54:15Z) - BlockFusion: Expandable 3D Scene Generation using Latent Tri-plane Extrapolation [51.030773085422034]
BlockFusionは拡散ベースのモデルで、3Dシーンを単位ブロックとして生成し、シーンを拡張するためにシームレスに新しいブロックを組み込む。
シーン要素の配置と配置を制御するために2次元レイアウトコンディショニング機構を使用する。
実験結果から、BlockFusionは多様な、幾何学的に整合性があり、拘束力のない大きな3Dシーンを生成可能であることが示唆された。
論文 参考訳(メタデータ) (2024-01-30T14:34:19Z) - BerfScene: Bev-conditioned Equivariant Radiance Fields for Infinite 3D
Scene Generation [96.58789785954409]
本研究では,同変放射場と鳥眼視図のガイダンスを組み込んだ実用的で効率的な3次元表現を提案する。
局所的なシーンを合成し、スムーズな一貫性で縫い合わせることで、大規模で無限スケールの3Dシーンを作ります。
論文 参考訳(メタデータ) (2023-12-04T18:56:10Z) - 3inGAN: Learning a 3D Generative Model from Images of a Self-similar
Scene [34.2144933185175]
3inGANは、単一の自己相似3Dシーンの2D画像から訓練された無条件3D生成モデルである。
実地および合成源から得られた,様々なスケールと複雑さの半確率的な場面での結果を示す。
論文 参考訳(メタデータ) (2022-11-27T18:03:21Z) - Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from
Single and Multiple Images [56.652027072552606]
Pix2Vox++という,単一ビューと複数ビューの3Dオブジェクト再構成のための新しいフレームワークを提案する。
良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。
次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。
論文 参考訳(メタデータ) (2020-06-22T13:48:09Z) - CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。
提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文 参考訳(メタデータ) (2020-04-27T17:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。