論文の概要: Geometry aware 3D generation from in-the-wild images in ImageNet
- arxiv url: http://arxiv.org/abs/2402.00225v2
- Date: Fri, 2 Feb 2024 01:55:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 11:48:46.581927
- Title: Geometry aware 3D generation from in-the-wild images in ImageNet
- Title(参考訳): ImageNetにおける線内画像からの3次元画像の幾何学的認識
- Authors: Qijia Shen, Guangrun Wang
- Abstract要約: 本稿では,カメラポーズ情報のない多種多様な非構造化画像ネットから3次元形状を再構成する手法を提案する。
2次元画像から3次元モデルを学習し,StyleGAN2に基づいて生成元バックボーンのアーキテクチャを変更するために,効率的な三面体表現を用いる。
訓練されたジェネレータは、任意の視点からのレンダリングだけでなく、クラス条件の3Dモデルを生成することができる。
- 参考スコア(独自算出の注目度): 18.157263188192434
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generating accurate 3D models is a challenging problem that traditionally
requires explicit learning from 3D datasets using supervised learning. Although
recent advances have shown promise in learning 3D models from 2D images, these
methods often rely on well-structured datasets with multi-view images of each
instance or camera pose information. Furthermore, these datasets usually
contain clean backgrounds with simple shapes, making them expensive to acquire
and hard to generalize, which limits the applicability of these methods. To
overcome these limitations, we propose a method for reconstructing 3D geometry
from the diverse and unstructured Imagenet dataset without camera pose
information. We use an efficient triplane representation to learn 3D models
from 2D images and modify the architecture of the generator backbone based on
StyleGAN2 to adapt to the highly diverse dataset. To prevent mode collapse and
improve the training stability on diverse data, we propose to use multi-view
discrimination. The trained generator can produce class-conditional 3D models
as well as renderings from arbitrary viewpoints. The class-conditional
generation results demonstrate significant improvement over the current
state-of-the-art method. Additionally, using PTI, we can efficiently
reconstruct the whole 3D geometry from single-view images.
- Abstract(参考訳): 正確な3dモデルの生成は、従来の3dデータセットからの教師あり学習による明示的な学習を必要とする難しい問題である。
近年の進歩により、2d画像から3dモデルを学ぶことが期待されているが、これらの方法は、各インスタンスやカメラのポーズ情報を含む、構造化されたデータセットに依存することが多い。
さらに、これらのデータセットは、通常、単純な形状のクリーンな背景を含んでおり、取得が高価で一般化が難しいため、これらの方法の適用性が制限される。
これらの制約を克服するために,カメラのポーズ情報のない多様な非構造化画像ネットデータセットから3次元形状を再構成する手法を提案する。
2次元画像から3次元モデルを学習し、StyleGAN2に基づいて生成元バックボーンのアーキテクチャを変更し、高度に多様なデータセットに適応する。
多様なデータのモード崩壊を防止し、トレーニング安定性を向上させるため、マルチビュー識別を提案する。
訓練されたジェネレータは、任意の視点からのレンダリングだけでなく、クラス条件の3Dモデルを生成することができる。
クラス条件生成の結果は,現在の最先端手法よりも大幅に改善した。
さらに、PTIを用いて、単視点画像から3次元図形全体を効率的に再構築することができる。
関連論文リスト
- Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation [2.3213238782019316]
GIMDiffusionは、幾何学画像を利用して2次元画像を用いて3次元形状を効率よく表現する新しいテキスト・ツー・3Dモデルである。
安定拡散のような既存のテキスト・ツー・イメージモデルのリッチな2次元先行モデルを利用する。
簡単に言うと、GIMDiffusionは現行のText-to-Imageモデルに匹敵する速度で3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2024-09-05T17:21:54Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - AG3D: Learning to Generate 3D Avatars from 2D Image Collections [96.28021214088746]
本稿では,2次元画像から現実的な3次元人物の新たな逆生成モデルを提案する。
本手法は, 全身型3Dジェネレータを用いて, 体の形状と変形を捉える。
提案手法は, 従来の3次元・調音認識手法よりも幾何的, 外観的に優れていた。
論文 参考訳(メタデータ) (2023-05-03T17:56:24Z) - Improved Modeling of 3D Shapes with Multi-view Depth Maps [48.8309897766904]
CNNを用いて3次元形状をモデル化するための汎用フレームワークを提案する。
オブジェクトの1つの深度画像だけで、3Dオブジェクトの高密度な多視点深度マップ表現を出力できる。
論文 参考訳(メタデータ) (2020-09-07T17:58:27Z) - Leveraging 2D Data to Learn Textured 3D Mesh Generation [33.32377849866736]
テクスチャ化された3Dメッシュの最初の生成モデルを示す。
我々は、各画像を3Dフォアグラウンドオブジェクトとしてモデル化することで、画像の分布を説明するためにモデルを訓練する。
レンダリングされたメッシュを生成して、トレーニングセットと同じようなイメージを生成する。
論文 参考訳(メタデータ) (2020-04-08T18:00:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。