論文の概要: 3D-Aware Indoor Scene Synthesis with Depth Priors
- arxiv url: http://arxiv.org/abs/2202.08553v2
- Date: Fri, 18 Feb 2022 06:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 12:44:32.664919
- Title: 3D-Aware Indoor Scene Synthesis with Depth Priors
- Title(参考訳): 奥行きを優先した3次元室内シーン合成
- Authors: Zifan Shi, Yujun Shen, Jiapeng Zhu, Dit-Yan Yeung, Qifeng Chen
- Abstract要約: 既存の手法では、室内配置や内部の物体の多様さのため、屋内シーンのモデル化に失敗する。
室内のシーンは共通な内在構造を持たず、2次元画像のみを用いるだけでは3次元形状のモデルが適切にガイドできない。
- 参考スコア(独自算出の注目度): 62.82867334012399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent advancement of Generative Adversarial Networks (GANs) in
learning 3D-aware image synthesis from 2D data, existing methods fail to model
indoor scenes due to the large diversity of room layouts and the objects
inside. We argue that indoor scenes do not have a shared intrinsic structure,
and hence only using 2D images cannot adequately guide the model with the 3D
geometry. In this work, we fill in this gap by introducing depth as a 3D prior.
Compared with other 3D data formats, depth better fits the convolution-based
generation mechanism and is more easily accessible in practice. Specifically,
we propose a dual-path generator, where one path is responsible for depth
generation, whose intermediate features are injected into the other path as the
condition for appearance rendering. Such a design eases the 3D-aware synthesis
with explicit geometry information. Meanwhile, we introduce a switchable
discriminator both to differentiate real v.s. fake domains and to predict the
depth from a given input. In this way, the discriminator can take the spatial
arrangement into account and advise the generator to learn an appropriate depth
condition. Extensive experimental results suggest that our approach is capable
of synthesizing indoor scenes with impressively good quality and 3D
consistency, significantly outperforming state-of-the-art alternatives.
- Abstract(参考訳): 近年,2次元データから3次元画像合成を学習するGAN(Generative Adversarial Networks)が進歩しているが,室内レイアウトや内部オブジェクトの多様さにより,既存の手法では屋内シーンのモデル化に失敗している。
室内シーンは内在的な構造が共有されていないため, 2次元画像のみを用いた場合, モデルに十分な3次元形状を導くことはできない。
本研究では,このギャップを3次元の先行モデルとして深度を導入することで埋める。
他の3Dデータフォーマットと比較して、深度は畳み込みベースの生成メカニズムに適合し、実際はより容易にアクセスできる。
具体的には、一方の経路が他方の経路に中間的な特徴を注入する深度生成を、外観レンダリングの条件として行うデュアルパス生成器を提案する。
このような設計により、明快な幾何学情報による3D認識合成が容易になる。
一方、実際のv.s.フェイクドメインを区別し、与えられた入力から深さを予測するために、切り替え可能な判別器を導入する。
このようにして、判別器は空間配置を考慮に入れ、ジェネレータに適切な深度条件を学ぶよう助言することができる。
大規模な実験結果から,本手法は室内のシーンを極めて優れた品質と3D整合性で合成することができることが示唆された。
関連論文リスト
- ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。
組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T05:57:01Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Improving 3D-aware Image Synthesis with A Geometry-aware Discriminator [68.0533826852601]
3Dを意識した画像合成は、画像のリアルな2D画像の描画が可能な生成モデルを学ぶことを目的としている。
既存の方法では、適度な3D形状が得られない。
本稿では,3次元GANの改良を目的とした幾何学的識別器を提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:37Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - NeSF: Neural Semantic Fields for Generalizable Semantic Segmentation of
3D Scenes [25.26518805603798]
NeSFは、ポーズされたRGB画像のみから3Dセマンティックフィールドを生成する方法である。
本手法は,訓練に2次元の監督しか必要としない,真に密集した3次元シーンセグメンテーションを提供する最初の方法である。
論文 参考訳(メタデータ) (2021-11-25T21:44:54Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Improved Modeling of 3D Shapes with Multi-view Depth Maps [48.8309897766904]
CNNを用いて3次元形状をモデル化するための汎用フレームワークを提案する。
オブジェクトの1つの深度画像だけで、3Dオブジェクトの高密度な多視点深度マップ表現を出力できる。
論文 参考訳(メタデータ) (2020-09-07T17:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。