論文の概要: VQ3D: Learning a 3D-Aware Generative Model on ImageNet
- arxiv url: http://arxiv.org/abs/2302.06833v1
- Date: Tue, 14 Feb 2023 05:15:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 16:19:12.864767
- Title: VQ3D: Learning a 3D-Aware Generative Model on ImageNet
- Title(参考訳): VQ3D: ImageNetによる3D認識生成モデル学習
- Authors: Kyle Sargent, Jing Yu Koh, Han Zhang, Huiwen Chang, Charles Herrmann,
Pratul Srinivasan, Jiajun Wu, Deqing Sun
- Abstract要約: 本稿では、NeRFベースのデコーダを2段階のベクトル量子化オートエンコーダに導入するVQ3Dを提案する。
VQ3Dは、120万のトレーニング画像からなる1000クラスのImageNetデータセットから3D対応画像を生成し、再構築することができる。
- 参考スコア(独自算出の注目度): 28.821450975660845
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent work has shown the possibility of training generative models of 3D
content from 2D image collections on small datasets corresponding to a single
object class, such as human faces, animal faces, or cars. However, these models
struggle on larger, more complex datasets. To model diverse and unconstrained
image collections such as ImageNet, we present VQ3D, which introduces a
NeRF-based decoder into a two-stage vector-quantized autoencoder. Our Stage 1
allows for the reconstruction of an input image and the ability to change the
camera position around the image, and our Stage 2 allows for the generation of
new 3D scenes. VQ3D is capable of generating and reconstructing 3D-aware images
from the 1000-class ImageNet dataset of 1.2 million training images. We achieve
an ImageNet generation FID score of 16.8, compared to 69.8 for the next best
baseline method.
- Abstract(参考訳): 最近の研究は、人間の顔、動物の顔、車など、単一のオブジェクトクラスに対応する小さなデータセット上の2次元画像コレクションから3Dコンテンツの生成モデルを訓練する可能性を示している。
しかし、これらのモデルは大規模で複雑なデータセットに苦しむ。
imagenet のような多様で制約のない画像コレクションをモデル化するために,二段階ベクトル量子化オートエンコーダに nerf ベースのデコーダを導入する vq3d を提案する。
我々のステージ1は、入力画像の再構成と画像の周囲のカメラ位置の変更を可能にし、ステージ2は新たな3Dシーンの生成を可能にします。
VQ3Dは、120万のトレーニング画像からなる1000クラスのImageNetデータセットから3D対応画像を生成し、再構築することができる。
ImageNet 生成 FID スコアは 16.8 であり、次の最良ベースライン法では 69.8 である。
関連論文リスト
- Geometry aware 3D generation from in-the-wild images in ImageNet [18.157263188192434]
本稿では,カメラポーズ情報のない多種多様な非構造化画像ネットから3次元形状を再構成する手法を提案する。
2次元画像から3次元モデルを学習し,StyleGAN2に基づいて生成元バックボーンのアーキテクチャを変更するために,効率的な三面体表現を用いる。
訓練されたジェネレータは、任意の視点からのレンダリングだけでなく、クラス条件の3Dモデルを生成することができる。
論文 参考訳(メタデータ) (2024-01-31T23:06:39Z) - DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction
Model [86.37536249046943]
textbfDMV3Dはトランスフォーマーに基づく3次元大規模再構成モデルを用いた新しい3D生成手法である。
再構成モデルでは, 3面のNeRF表現を組み込んで, ノイズの多い多視点画像をNeRF再構成とレンダリングで識別することができる。
論文 参考訳(メタデータ) (2023-11-15T18:58:41Z) - GET3D--: Learning GET3D from Unconstrained Image Collections [27.470617383305726]
本研究では2次元画像から直接テクスチャ化された3次元形状を生成できるGET3D-を提案する。
GET3D--は3D形状のジェネレータと、カメラ上の6D外部変化をキャプチャする学習可能なカメラサンプリング器を備える。
論文 参考訳(メタデータ) (2023-07-27T15:00:54Z) - Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D
Data [76.38261311948649]
Viewset Diffusionは拡散に基づくジェネレータで、3Dオブジェクトを出力する。
拡散モデルをトレーニングし、ビューセットを生成するが、ニューラルネットワークジェネレータを設計し、内部で対応する3Dモデルを再構成する。
モデルはフィードフォワード方式で効率的に再構成を行い、ビューセット当たり3ビューのレンダリング損失のみを用いてトレーニングされる。
論文 参考訳(メタデータ) (2023-06-13T16:18:51Z) - Farm3D: Learning Articulated 3D Animals by Distilling 2D Diffusion [81.63322697335228]
我々は,「自由」な仮想監督から,音声オブジェクトのカテゴリー別3D再構成を学習するFarm3Dを提案する。
近年のアプローチでは,物体の3次元形状,アルベド,照明,物体発生の視点を予測するための単眼ネットワークである,対象カテゴリの単一視点画像の集合から学習することができる。
本研究では、安定拡散のような画像生成装置を用いて、そのような再構成ネットワークをスクラッチから学習するための仮想トレーニングデータを生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-20T17:59:34Z) - 3D-aware Image Generation using 2D Diffusion Models [23.150456832947427]
我々は、3D対応画像生成タスクをマルチビュー2Dイメージセット生成として定式化し、さらにシーケンシャルな条件なしのマルチビュー画像生成プロセスにも適用する。
本研究では,2次元拡散モデルを用いて生成的モデリング能力を向上する。
我々は,既存の手法では扱えない大規模データセットであるImageNetで,本手法を訓練する。
論文 参考訳(メタデータ) (2023-03-31T09:03:18Z) - HoloDiffusion: Training a 3D Diffusion Model using 2D Images [71.1144397510333]
我々は,2次元画像のみを監督のために配置した,エンドツーエンドでトレーニング可能な新しい拡散装置を導入する。
我々の拡散モデルはスケーラブルで、頑健に訓練されており、既存の3次元生成モデルへのアプローチに対して、サンプルの品質と忠実さの点で競争力があることを示す。
論文 参考訳(メタデータ) (2023-03-29T07:35:56Z) - 3D generation on ImageNet [76.0440752186121]
3DGP: トレーニングデータに関するより一般的な仮定を持つ3D合成フレームワークを開発した。
私たちのモデルは3つの新しいアイデアに基づいている。
SDIP Dogs 256x256, SDIP Elephants 256x256, LSUN Horses 256x256, ImageNet 256x256の4つのデータセットについて検討を行った。
論文 参考訳(メタデータ) (2023-03-02T17:06:57Z) - Learning 3D Representations from 2D Pre-trained Models via
Image-to-Point Masked Autoencoders [52.91248611338202]
I2P-MAEという名前のイメージ・ツー・ポイント・マスケッド・オートエンコーダを用いて,2次元事前学習モデルから優れた3次元表現を得る方法を提案する。
自己教師付き事前学習により、よく学習された2D知識を利用して、3Dマスクによる自動エンコーディングをガイドする。
I2P-MAEは最先端の90.11%の精度、+3.68%の精度で第2ベストに到達し、より優れた転送能力を示す。
論文 参考訳(メタデータ) (2022-12-13T17:59:20Z) - Improved Modeling of 3D Shapes with Multi-view Depth Maps [48.8309897766904]
CNNを用いて3次元形状をモデル化するための汎用フレームワークを提案する。
オブジェクトの1つの深度画像だけで、3Dオブジェクトの高密度な多視点深度マップ表現を出力できる。
論文 参考訳(メタデータ) (2020-09-07T17:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。