Fugu-MT 論文翻訳(概要): 3D generation on ImageNet

論文の概要: 3D generation on ImageNet

arxiv url: http://arxiv.org/abs/2303.01416v1
Date: Thu, 2 Mar 2023 17:06:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-03 13:27:00.343505
Title: 3D generation on ImageNet
Title（参考訳）: ImageNetによる3次元画像生成
Authors: Ivan Skorokhodov, Aliaksandr Siarohin, Yinghao Xu, Jian Ren, Hsin-Ying Lee, Peter Wonka, Sergey Tulyakov
Abstract要約: 3DGP: トレーニングデータに関するより一般的な仮定を持つ3D合成フレームワークを開発した。私たちのモデルは3つの新しいアイデアに基づいている。 SDIP Dogs 256x256, SDIP Elephants 256x256, LSUN Horses 256x256, ImageNet 256x256の4つのデータセットについて検討を行った。
参考スコア（独自算出の注目度）: 76.0440752186121
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing 3D-from-2D generators are typically designed for well-curated single-category datasets, where all the objects have (approximately) the same scale, 3D location, and orientation, and the camera always points to the center of the scene. This makes them inapplicable to diverse, in-the-wild datasets of non-alignable scenes rendered from arbitrary camera poses. In this work, we develop a 3D generator with Generic Priors (3DGP): a 3D synthesis framework with more general assumptions about the training data, and show that it scales to very challenging datasets, like ImageNet. Our model is based on three new ideas. First, we incorporate an inaccurate off-the-shelf depth estimator into 3D GAN training via a special depth adaptation module to handle the imprecision. Then, we create a flexible camera model and a regularization strategy for it to learn its distribution parameters during training. Finally, we extend the recent ideas of transferring knowledge from pre-trained classifiers into GANs for patch-wise trained models by employing a simple distillation-based technique on top of the discriminator. It achieves more stable training than the existing methods and speeds up the convergence by at least 40%. We explore our model on four datasets: SDIP Dogs 256x256, SDIP Elephants 256x256, LSUN Horses 256x256, and ImageNet 256x256, and demonstrate that 3DGP outperforms the recent state-of-the-art in terms of both texture and geometry quality. Code and visualizations: https://snap-research.github.io/3dgp.
Abstract（参考訳）: 既存の3D-from-2Dジェネレータは通常、すべてのオブジェクトが(ほぼ)同じスケール、3D位置、方向を持ち、カメラは常にシーンの中央を指している、よく計算された単一カテゴリのデータセットのために設計されている。これにより、任意のカメラのポーズからレンダリングされた、調整不能なシーンの多様で幅の広いデータセットには適用できない。本研究では, トレーニングデータに関するより一般的な仮定を持つ3D合成フレームワークであるGeneric Priors(3DGP)を用いた3Dジェネレータを開発し, ImageNetのような非常に困難なデータセットにスケール可能であることを示す。私たちのモデルは3つの新しいアイデアに基づいている。まず、不正確なオフザシェルフ深度推定器を特別な深度適応モジュールを介して3D GANトレーニングに組み込んで、精度を抑える。そして、トレーニング中にその分布パラメータを学習するために、柔軟なカメラモデルと正規化戦略を作成します。最後に, 予め訓練された分類器からgansへ知識を移すという最近の考え方を拡張し, 単純な蒸留法に基づく手法を識別器の上に用いた。既存の方法よりも安定したトレーニングを達成し、収束を少なくとも40%高速化する。 SDIP Dogs 256x256, SDIP Elephants 256x256, LSUN Horses 256x256, ImageNet 256x256の4つのデータセットでモデルを探索し, テクスチャと幾何学の両面で最近の最先端の3DGPが優れていることを示す。コードと視覚化: https://snap-research.github.io/3dgp。

関連論文リスト

A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文参考訳（メタデータ） (2024-12-01T00:29:57Z)
ZeroGS: Training 3D Gaussian Splatting from Unposed Images [62.34149221132978]
我々はZeroGSを提案し、3DGSを何百もの未提示画像から訓練する。本手法は,事前学習した基礎モデルをニューラルネットワークのシーン表現として活用する。提案手法は,最先端のポーズレスNeRF/3DGS法よりも高精度なカメラポーズを復元する。
論文参考訳（メタデータ） (2024-11-24T11:20:48Z)
CameraHMR: Aligning People with Perspective [54.05758012879385]
モノクロ画像からの正確な3次元ポーズと形状推定の課題に対処する。既存のトレーニングデータセットには、擬似基底真理(pGT)を持つ実画像が含まれている。 pGTの精度を向上させる2つの貢献をしている。
論文参考訳（メタデータ） (2024-11-12T19:12:12Z)
ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文参考訳（メタデータ） (2024-08-30T05:57:01Z)
Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文参考訳（メタデータ） (2024-07-05T09:43:05Z)
Geometry aware 3D generation from in-the-wild images in ImageNet [18.157263188192434]
本稿では,カメラポーズ情報のない多種多様な非構造化画像ネットから3次元形状を再構成する手法を提案する。 2次元画像から3次元モデルを学習し,StyleGAN2に基づいて生成元バックボーンのアーキテクチャを変更するために,効率的な三面体表現を用いる。訓練されたジェネレータは、任意の視点からのレンダリングだけでなく、クラス条件の3Dモデルを生成することができる。
論文参考訳（メタデータ） (2024-01-31T23:06:39Z)
VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual Data [69.64723752430244]
このタスクに特有の隠れた「フリーランチ」を活用するための2段階学習フレームワークであるVirtualPoseを紹介する。 1段目は画像を抽象幾何学表現(AGR)に変換し、2段目はそれらを3Dポーズにマッピングする。 1)第1段は多様な2次元データセットでトレーニングし、限られた外観への過度な適合のリスクを軽減し、2)多数の仮想カメラとポーズから合成された多様なAGRでトレーニングすることができる。
論文参考訳（メタデータ） (2022-07-20T14:47:28Z)
EpiGRAF: Rethinking training of 3D GANs [60.38818140637367]
本稿では,SotA画像品質の高い高解像度3Dジェネレータを,パッチワイズを単純に訓練するまったく異なる経路を辿ることによって実現可能であることを示す。 EpiGRAFと呼ばれる結果のモデルは、効率的で高解像度で純粋な3Dジェネレータである。
論文参考訳（メタデータ） (2022-06-21T17:08:23Z)
3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文参考訳（メタデータ） (2021-04-06T02:22:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。