論文の概要: Pix2Shape: Towards Unsupervised Learning of 3D Scenes from Images using
a View-based Representation
- arxiv url: http://arxiv.org/abs/2003.14166v2
- Date: Fri, 17 Apr 2020 13:22:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 23:22:22.779960
- Title: Pix2Shape: Towards Unsupervised Learning of 3D Scenes from Images using
a View-based Representation
- Title(参考訳): pix2shape:ビューベース表現を用いた3dシーンの教師なし学習に向けて
- Authors: Sai Rajeswar, Fahim Mannan, Florian Golemo, J\'er\^ome
Parent-L\'evesque, David Vazquez, Derek Nowrouzezahrai, Aaron Courville
- Abstract要約: Pix2Shapeは、監督なしで単一の入力画像から3Dシーンを生成する。
Pix2Shapeは符号化された潜在空間において一貫したシーン表現を学習する。
Pix2ShapeをShapeNetデータセット上で実験して評価した。
- 参考スコア(独自算出の注目度): 20.788952043643906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We infer and generate three-dimensional (3D) scene information from a single
input image and without supervision. This problem is under-explored, with most
prior work relying on supervision from, e.g., 3D ground-truth, multiple images
of a scene, image silhouettes or key-points. We propose Pix2Shape, an approach
to solve this problem with four components: (i) an encoder that infers the
latent 3D representation from an image, (ii) a decoder that generates an
explicit 2.5D surfel-based reconstruction of a scene from the latent code (iii)
a differentiable renderer that synthesizes a 2D image from the surfel
representation, and (iv) a critic network trained to discriminate between
images generated by the decoder-renderer and those from a training
distribution. Pix2Shape can generate complex 3D scenes that scale with the
view-dependent on-screen resolution, unlike representations that capture
world-space resolution, i.e., voxels or meshes. We show that Pix2Shape learns a
consistent scene representation in its encoded latent space and that the
decoder can then be applied to this latent representation in order to
synthesize the scene from a novel viewpoint. We evaluate Pix2Shape with
experiments on the ShapeNet dataset as well as on a novel benchmark we
developed, called 3D-IQTT, to evaluate models based on their ability to enable
3d spatial reasoning. Qualitative and quantitative evaluation demonstrate
Pix2Shape's ability to solve scene reconstruction, generation, and
understanding tasks.
- Abstract(参考訳): 1つの入力画像から3次元のシーン情報を推定し,監視することなく生成する。
この問題は未調査であり、以前の作業は3D地上ストラス、シーンの複数の画像、画像シルエット、キーポイントなどの監督に依存していた。
Pix2Shapeは、4つのコンポーネントでこの問題を解決するアプローチである。
i) 画像から潜伏した3D表現を推測するエンコーダ
(ii)潜在コードから明示的な2.5dサーフェルに基づくシーンの再構成を生成するデコーダ
(iii)サーフェル表現から2次元画像を合成する微分可能レンダラ、及び
(iv)デコーダ・レンダが生成した画像とトレーニング分布からの画像とを識別する訓練を受けた批評家ネットワーク。
Pix2Shapeは、世界空間の解像度、すなわちボクセルやメッシュをキャプチャする表現とは異なり、ビュー依存の画面解像度でスケールする複雑な3Dシーンを生成することができる。
pix2shapeはその符号化された潜在空間で一貫したシーン表現を学習し、デコーダをこの潜在表現に適用して新たな視点からシーンを合成できることを示す。
本研究では、ShapeNetデータセットと3D-IQTTと呼ばれる新しいベンチマークを用いてPix2Shapeを評価し、3D空間推論を可能にするモデルの評価を行った。
定性的かつ定量的な評価は、Pix2Shapeがシーン再構成、生成、理解タスクを解く能力を示している。
関連論文リスト
- Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - Blocks2World: Controlling Realistic Scenes with Editable Primitives [5.541644538483947]
我々は3Dシーンのレンダリングと編集のための新しい方法であるBlocks2Worldを提案する。
本手法は,コンベックス分解を用いて,各シーンの様々な物体から3次元並列入力を抽出することから始める。
次のステージでは、2Dレンダリングされた凸プリミティブから画像を生成することを学ぶ条件付きモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-07-07T21:38:50Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - Panoptic Lifting for 3D Scene Understanding with Neural Fields [32.59498558663363]
そこで本研究では,撮影シーンの画像からパノプティカル3D表現を学習するための新しい手法を提案する。
本手法では,事前学習ネットワークから推定される2次元空間分割マスクのみを必要とする。
実験結果は、Hypersim、Replica、ScanNetデータセットに挑戦するアプローチを検証する。
論文 参考訳(メタデータ) (2022-12-19T19:15:36Z) - 3inGAN: Learning a 3D Generative Model from Images of a Self-similar
Scene [34.2144933185175]
3inGANは、単一の自己相似3Dシーンの2D画像から訓練された無条件3D生成モデルである。
実地および合成源から得られた,様々なスケールと複雑さの半確率的な場面での結果を示す。
論文 参考訳(メタデータ) (2022-11-27T18:03:21Z) - CompNVS: Novel View Synthesis with Scene Completion [83.19663671794596]
本稿では,スパースグリッドに基づくニューラルシーン表現を用いた生成パイプラインを提案する。
画像特徴を3次元空間に符号化し、幾何学的完備化ネットワークとその後のテクスチャ塗布ネットワークを用いて、欠落した領域を外挿する。
フォトリアリスティック画像列は、整合性関連微分可能レンダリングによって最終的に得られる。
論文 参考訳(メタデータ) (2022-07-23T09:03:13Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z) - 3DP3: 3D Scene Perception via Probabilistic Programming [28.491817202574932]
3DP3は、オブジェクト、シーン、イメージの構造化生成モデルで推論を使用する逆グラフィックのためのフレームワークである。
その結果,3DP3は深層学習ベースラインよりも実画像から6DoFオブジェクトのポーズ推定の方が精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-10-30T19:10:34Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。