論文の概要: Frankenstein: Generating Semantic-Compositional 3D Scenes in One Tri-Plane
- arxiv url: http://arxiv.org/abs/2403.16210v1
- Date: Sun, 24 Mar 2024 16:09:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 16:56:25.781848
- Title: Frankenstein: Generating Semantic-Compositional 3D Scenes in One Tri-Plane
- Title(参考訳): Frankenstein: セマンティック・コメンデーショナルな3Dシーンを1つのトリプレーンで生成する
- Authors: Han Yan, Yang Li, Zhennan Wu, Shenzhou Chen, Weixuan Sun, Taizhang Shang, Weizhe Liu, Tian Chen, Xiaqiang Dai, Chao Ma, Hongdong Li, Pan Ji,
- Abstract要約: Frankensteinは拡散に基づくフレームワークで、セマンティックな3Dシーンを単一のパスで生成できる。
複数の分離された形状を同時に生成し、それぞれが意味的に意味のある部分に対応する。
生成されたシーンは、部分的な再テクスチャ、部屋内のオブジェクトの配置、アバターの布の再ターゲットなど、多くの下流のアプリケーションを促進する。
- 参考スコア(独自算出の注目度): 51.69069723429115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Frankenstein, a diffusion-based framework that can generate semantic-compositional 3D scenes in a single pass. Unlike existing methods that output a single, unified 3D shape, Frankenstein simultaneously generates multiple separated shapes, each corresponding to a semantically meaningful part. The 3D scene information is encoded in one single tri-plane tensor, from which multiple Singed Distance Function (SDF) fields can be decoded to represent the compositional shapes. During training, an auto-encoder compresses tri-planes into a latent space, and then the denoising diffusion process is employed to approximate the distribution of the compositional scenes. Frankenstein demonstrates promising results in generating room interiors as well as human avatars with automatically separated parts. The generated scenes facilitate many downstream applications, such as part-wise re-texturing, object rearrangement in the room or avatar cloth re-targeting.
- Abstract(参考訳): 拡散に基づくフレームワークであるFrankensteinについて述べる。
単一の統一された3次元形状を出力する既存の方法とは異なり、フランケンシュタインは同時に複数の分離された形状を生成し、それぞれが意味的に意味のある部分に対応する。
3Dシーン情報を1つの3平面テンソルに符号化し、そこから複数のSDFフィールドをデコードして構成形状を表現する。
トレーニング中、オートエンコーダは三面体を潜在空間に圧縮し、次に、合成シーンの分布を近似するために偏極拡散過程を用いる。
フランケンシュタインは、部屋の内部と、自動的に分離された部分を持つ人間のアバターを生成するという有望な結果を実証している。
生成されたシーンは、部分的な再テクスチャ、部屋内のオブジェクトの配置、アバターの布の再ターゲットなど、多くの下流のアプリケーションを促進する。
関連論文リスト
- Disentangled 3D Scene Generation with Layout Learning [109.03233745767062]
本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。
私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。
単純さにもかかわらず、我々のアプローチは個々のオブジェクトに3Dシーンを生成することに成功している。
論文 参考訳(メタデータ) (2024-02-26T18:54:15Z) - BlockFusion: Expandable 3D Scene Generation using Latent Tri-plane Extrapolation [51.030773085422034]
BlockFusionは拡散ベースのモデルで、3Dシーンを単位ブロックとして生成し、シーンを拡張するためにシームレスに新しいブロックを組み込む。
シーン要素の配置と配置を制御するために2次元レイアウトコンディショニング機構を使用する。
実験結果から、BlockFusionは多様な、幾何学的に整合性があり、拘束力のない大きな3Dシーンを生成可能であることが示唆された。
論文 参考訳(メタデータ) (2024-01-30T14:34:19Z) - BerfScene: Bev-conditioned Equivariant Radiance Fields for Infinite 3D
Scene Generation [96.58789785954409]
本研究では,同変放射場と鳥眼視図のガイダンスを組み込んだ実用的で効率的な3次元表現を提案する。
局所的なシーンを合成し、スムーズな一貫性で縫い合わせることで、大規模で無限スケールの3Dシーンを作ります。
論文 参考訳(メタデータ) (2023-12-04T18:56:10Z) - DiffuScene: Denoising Diffusion Models for Generative Indoor Scene
Synthesis [44.521452102413534]
拡散モデルに基づく屋内3次元シーン合成のためのDiffuSceneを提案する。
非順序オブジェクトセットに格納された3Dインスタンスプロパティを生成し、各オブジェクト設定に最もよく似た幾何学を検索する。
論文 参考訳(メタデータ) (2023-03-24T18:00:15Z) - 3inGAN: Learning a 3D Generative Model from Images of a Self-similar
Scene [34.2144933185175]
3inGANは、単一の自己相似3Dシーンの2D画像から訓練された無条件3D生成モデルである。
実地および合成源から得られた,様々なスケールと複雑さの半確率的な場面での結果を示す。
論文 参考訳(メタデータ) (2022-11-27T18:03:21Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z) - Neural Feature Fusion Fields: 3D Distillation of Self-Supervised 2D
Image Representations [92.88108411154255]
本稿では,3次元シーンとして再構成可能な複数画像の解析に後者を適用する際に,高密度な2次元画像特徴抽出器を改善する手法を提案する。
本手法は,手動ラベルを使わずに,シーン固有のニューラルネットワークの文脈における意味理解を可能にするだけでなく,自己監督型2Dベースラインよりも一貫して改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-07T23:24:09Z) - CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。
提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文 参考訳(メタデータ) (2020-04-27T17:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。