論文の概要: 3D generation on ImageNet
- arxiv url: http://arxiv.org/abs/2303.01416v1
- Date: Thu, 2 Mar 2023 17:06:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 13:27:00.343505
- Title: 3D generation on ImageNet
- Title(参考訳): ImageNetによる3次元画像生成
- Authors: Ivan Skorokhodov, Aliaksandr Siarohin, Yinghao Xu, Jian Ren, Hsin-Ying
Lee, Peter Wonka, Sergey Tulyakov
- Abstract要約: 3DGP: トレーニングデータに関するより一般的な仮定を持つ3D合成フレームワークを開発した。
私たちのモデルは3つの新しいアイデアに基づいている。
SDIP Dogs 256x256, SDIP Elephants 256x256, LSUN Horses 256x256, ImageNet 256x256の4つのデータセットについて検討を行った。
- 参考スコア(独自算出の注目度): 76.0440752186121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing 3D-from-2D generators are typically designed for well-curated
single-category datasets, where all the objects have (approximately) the same
scale, 3D location, and orientation, and the camera always points to the center
of the scene. This makes them inapplicable to diverse, in-the-wild datasets of
non-alignable scenes rendered from arbitrary camera poses. In this work, we
develop a 3D generator with Generic Priors (3DGP): a 3D synthesis framework
with more general assumptions about the training data, and show that it scales
to very challenging datasets, like ImageNet. Our model is based on three new
ideas. First, we incorporate an inaccurate off-the-shelf depth estimator into
3D GAN training via a special depth adaptation module to handle the
imprecision. Then, we create a flexible camera model and a regularization
strategy for it to learn its distribution parameters during training. Finally,
we extend the recent ideas of transferring knowledge from pre-trained
classifiers into GANs for patch-wise trained models by employing a simple
distillation-based technique on top of the discriminator. It achieves more
stable training than the existing methods and speeds up the convergence by at
least 40%. We explore our model on four datasets: SDIP Dogs 256x256, SDIP
Elephants 256x256, LSUN Horses 256x256, and ImageNet 256x256, and demonstrate
that 3DGP outperforms the recent state-of-the-art in terms of both texture and
geometry quality. Code and visualizations:
https://snap-research.github.io/3dgp.
- Abstract(参考訳): 既存の3D-from-2Dジェネレータは通常、すべてのオブジェクトが(ほぼ)同じスケール、3D位置、方向を持ち、カメラは常にシーンの中央を指している、よく計算された単一カテゴリのデータセットのために設計されている。
これにより、任意のカメラのポーズからレンダリングされた、調整不能なシーンの多様で幅の広いデータセットには適用できない。
本研究では, トレーニングデータに関するより一般的な仮定を持つ3D合成フレームワークであるGeneric Priors(3DGP)を用いた3Dジェネレータを開発し, ImageNetのような非常に困難なデータセットにスケール可能であることを示す。
私たちのモデルは3つの新しいアイデアに基づいている。
まず、不正確なオフザシェルフ深度推定器を特別な深度適応モジュールを介して3D GANトレーニングに組み込んで、精度を抑える。
そして、トレーニング中にその分布パラメータを学習するために、柔軟なカメラモデルと正規化戦略を作成します。
最後に, 予め訓練された分類器からgansへ知識を移すという最近の考え方を拡張し, 単純な蒸留法に基づく手法を識別器の上に用いた。
既存の方法よりも安定したトレーニングを達成し、収束を少なくとも40%高速化する。
SDIP Dogs 256x256, SDIP Elephants 256x256, LSUN Horses 256x256, ImageNet 256x256の4つのデータセットでモデルを探索し, テクスチャと幾何学の両面で最近の最先端の3DGPが優れていることを示す。
コードと視覚化: https://snap-research.github.io/3dgp。
関連論文リスト
- Geometry aware 3D generation from in-the-wild images in ImageNet [18.157263188192434]
本稿では,カメラポーズ情報のない多種多様な非構造化画像ネットから3次元形状を再構成する手法を提案する。
2次元画像から3次元モデルを学習し,StyleGAN2に基づいて生成元バックボーンのアーキテクチャを変更するために,効率的な三面体表現を用いる。
訓練されたジェネレータは、任意の視点からのレンダリングだけでなく、クラス条件の3Dモデルを生成することができる。
論文 参考訳(メタデータ) (2024-01-31T23:06:39Z) - HoloDiffusion: Training a 3D Diffusion Model using 2D Images [71.1144397510333]
我々は,2次元画像のみを監督のために配置した,エンドツーエンドでトレーニング可能な新しい拡散装置を導入する。
我々の拡散モデルはスケーラブルで、頑健に訓練されており、既存の3次元生成モデルへのアプローチに対して、サンプルの品質と忠実さの点で競争力があることを示す。
論文 参考訳(メタデータ) (2023-03-29T07:35:56Z) - Lightweight integration of 3D features to improve 2D image segmentation [1.3799488979862027]
画像のセグメンテーションは3次元の基底構造を必要とせずに3次元の幾何学的情報から恩恵を受けることができることを示す。
提案手法は,多くの2次元セグメンテーションネットワークに適用でき,性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T08:22:55Z) - Common Pets in 3D: Dynamic New-View Synthesis of Real-Life Deformable
Categories [80.30216777363057]
コモンペットを3Dで紹介する(CoP3D)。
テスト時には、目に見えないオブジェクトの少数のビデオフレームが与えられたとき、Tracker-NeRFはその3Dポイントの軌跡を予測し、新しいビューを生成する。
CoP3Dの結果は、既存のベースラインよりも、厳密でない新規ビュー合成性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-07T22:42:42Z) - PIZZA: A Powerful Image-only Zero-Shot Zero-CAD Approach to 6 DoF
Tracking [27.283648727847268]
トレーニング画像も3次元形状も利用できない場合,RGBビデオシーケンス中の物体の6次元動きを追跡する手法を提案する。
従来の研究とは対照的に,本手法はオープンワールドにおける未知の物体を瞬時に考慮することができる。
挑戦的なデータセットに関する私たちの結果は、もっと多くの情報を必要とする以前の作業と同等です。
論文 参考訳(メタデータ) (2022-09-15T19:55:13Z) - VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual
Data [69.64723752430244]
このタスクに特有の隠れた「フリーランチ」を活用するための2段階学習フレームワークであるVirtualPoseを紹介する。
1段目は画像を抽象幾何学表現(AGR)に変換し、2段目はそれらを3Dポーズにマッピングする。
1)第1段は多様な2次元データセットでトレーニングし、限られた外観への過度な適合のリスクを軽減し、2)多数の仮想カメラとポーズから合成された多様なAGRでトレーニングすることができる。
論文 参考訳(メタデータ) (2022-07-20T14:47:28Z) - EpiGRAF: Rethinking training of 3D GANs [60.38818140637367]
本稿では,SotA画像品質の高い高解像度3Dジェネレータを,パッチワイズを単純に訓練するまったく異なる経路を辿ることによって実現可能であることを示す。
EpiGRAFと呼ばれる結果のモデルは、効率的で高解像度で純粋な3Dジェネレータである。
論文 参考訳(メタデータ) (2022-06-21T17:08:23Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。