論文の概要: 3D generation on ImageNet
- arxiv url: http://arxiv.org/abs/2303.01416v1
- Date: Thu, 2 Mar 2023 17:06:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 13:27:00.343505
- Title: 3D generation on ImageNet
- Title(参考訳): ImageNetによる3次元画像生成
- Authors: Ivan Skorokhodov, Aliaksandr Siarohin, Yinghao Xu, Jian Ren, Hsin-Ying
Lee, Peter Wonka, Sergey Tulyakov
- Abstract要約: 3DGP: トレーニングデータに関するより一般的な仮定を持つ3D合成フレームワークを開発した。
私たちのモデルは3つの新しいアイデアに基づいている。
SDIP Dogs 256x256, SDIP Elephants 256x256, LSUN Horses 256x256, ImageNet 256x256の4つのデータセットについて検討を行った。
- 参考スコア(独自算出の注目度): 76.0440752186121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing 3D-from-2D generators are typically designed for well-curated
single-category datasets, where all the objects have (approximately) the same
scale, 3D location, and orientation, and the camera always points to the center
of the scene. This makes them inapplicable to diverse, in-the-wild datasets of
non-alignable scenes rendered from arbitrary camera poses. In this work, we
develop a 3D generator with Generic Priors (3DGP): a 3D synthesis framework
with more general assumptions about the training data, and show that it scales
to very challenging datasets, like ImageNet. Our model is based on three new
ideas. First, we incorporate an inaccurate off-the-shelf depth estimator into
3D GAN training via a special depth adaptation module to handle the
imprecision. Then, we create a flexible camera model and a regularization
strategy for it to learn its distribution parameters during training. Finally,
we extend the recent ideas of transferring knowledge from pre-trained
classifiers into GANs for patch-wise trained models by employing a simple
distillation-based technique on top of the discriminator. It achieves more
stable training than the existing methods and speeds up the convergence by at
least 40%. We explore our model on four datasets: SDIP Dogs 256x256, SDIP
Elephants 256x256, LSUN Horses 256x256, and ImageNet 256x256, and demonstrate
that 3DGP outperforms the recent state-of-the-art in terms of both texture and
geometry quality. Code and visualizations:
https://snap-research.github.io/3dgp.
- Abstract(参考訳): 既存の3D-from-2Dジェネレータは通常、すべてのオブジェクトが(ほぼ)同じスケール、3D位置、方向を持ち、カメラは常にシーンの中央を指している、よく計算された単一カテゴリのデータセットのために設計されている。
これにより、任意のカメラのポーズからレンダリングされた、調整不能なシーンの多様で幅の広いデータセットには適用できない。
本研究では, トレーニングデータに関するより一般的な仮定を持つ3D合成フレームワークであるGeneric Priors(3DGP)を用いた3Dジェネレータを開発し, ImageNetのような非常に困難なデータセットにスケール可能であることを示す。
私たちのモデルは3つの新しいアイデアに基づいている。
まず、不正確なオフザシェルフ深度推定器を特別な深度適応モジュールを介して3D GANトレーニングに組み込んで、精度を抑える。
そして、トレーニング中にその分布パラメータを学習するために、柔軟なカメラモデルと正規化戦略を作成します。
最後に, 予め訓練された分類器からgansへ知識を移すという最近の考え方を拡張し, 単純な蒸留法に基づく手法を識別器の上に用いた。
既存の方法よりも安定したトレーニングを達成し、収束を少なくとも40%高速化する。
SDIP Dogs 256x256, SDIP Elephants 256x256, LSUN Horses 256x256, ImageNet 256x256の4つのデータセットでモデルを探索し, テクスチャと幾何学の両面で最近の最先端の3DGPが優れていることを示す。
コードと視覚化: https://snap-research.github.io/3dgp。
関連論文リスト
- ZeroGS: Training 3D Gaussian Splatting from Unposed Images [62.34149221132978]
我々はZeroGSを提案し、3DGSを何百もの未提示画像から訓練する。
本手法は,事前学習した基礎モデルをニューラルネットワークのシーン表現として活用する。
提案手法は,最先端のポーズレスNeRF/3DGS法よりも高精度なカメラポーズを復元する。
論文 参考訳(メタデータ) (2024-11-24T11:20:48Z) - CameraHMR: Aligning People with Perspective [54.05758012879385]
モノクロ画像からの正確な3次元ポーズと形状推定の課題に対処する。
既存のトレーニングデータセットには、擬似基底真理(pGT)を持つ実画像が含まれている。
pGTの精度を向上させる2つの貢献をしている。
論文 参考訳(メタデータ) (2024-11-12T19:12:12Z) - ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。
組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T05:57:01Z) - Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Geometry aware 3D generation from in-the-wild images in ImageNet [18.157263188192434]
本稿では,カメラポーズ情報のない多種多様な非構造化画像ネットから3次元形状を再構成する手法を提案する。
2次元画像から3次元モデルを学習し,StyleGAN2に基づいて生成元バックボーンのアーキテクチャを変更するために,効率的な三面体表現を用いる。
訓練されたジェネレータは、任意の視点からのレンダリングだけでなく、クラス条件の3Dモデルを生成することができる。
論文 参考訳(メタデータ) (2024-01-31T23:06:39Z) - VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual
Data [69.64723752430244]
このタスクに特有の隠れた「フリーランチ」を活用するための2段階学習フレームワークであるVirtualPoseを紹介する。
1段目は画像を抽象幾何学表現(AGR)に変換し、2段目はそれらを3Dポーズにマッピングする。
1)第1段は多様な2次元データセットでトレーニングし、限られた外観への過度な適合のリスクを軽減し、2)多数の仮想カメラとポーズから合成された多様なAGRでトレーニングすることができる。
論文 参考訳(メタデータ) (2022-07-20T14:47:28Z) - EpiGRAF: Rethinking training of 3D GANs [60.38818140637367]
本稿では,SotA画像品質の高い高解像度3Dジェネレータを,パッチワイズを単純に訓練するまったく異なる経路を辿ることによって実現可能であることを示す。
EpiGRAFと呼ばれる結果のモデルは、効率的で高解像度で純粋な3Dジェネレータである。
論文 参考訳(メタデータ) (2022-06-21T17:08:23Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。