論文の概要: HoloDiffusion: Training a 3D Diffusion Model using 2D Images
- arxiv url: http://arxiv.org/abs/2303.16509v2
- Date: Sun, 21 May 2023 22:38:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 03:32:24.643432
- Title: HoloDiffusion: Training a 3D Diffusion Model using 2D Images
- Title(参考訳): holodiffusion: 2次元画像を用いた3次元拡散モデルのトレーニング
- Authors: Animesh Karnewar, Andrea Vedaldi, David Novotny, Niloy Mitra
- Abstract要約: 我々は,2次元画像のみを監督のために配置した,エンドツーエンドでトレーニング可能な新しい拡散装置を導入する。
我々の拡散モデルはスケーラブルで、頑健に訓練されており、既存の3次元生成モデルへのアプローチに対して、サンプルの品質と忠実さの点で競争力があることを示す。
- 参考スコア(独自算出の注目度): 71.1144397510333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have emerged as the best approach for generative modeling of
2D images. Part of their success is due to the possibility of training them on
millions if not billions of images with a stable learning objective. However,
extending these models to 3D remains difficult for two reasons. First, finding
a large quantity of 3D training data is much more complex than for 2D images.
Second, while it is conceptually trivial to extend the models to operate on 3D
rather than 2D grids, the associated cubic growth in memory and compute
complexity makes this infeasible. We address the first challenge by introducing
a new diffusion setup that can be trained, end-to-end, with only posed 2D
images for supervision; and the second challenge by proposing an image
formation model that decouples model memory from spatial memory. We evaluate
our method on real-world data, using the CO3D dataset which has not been used
to train 3D generative models before. We show that our diffusion models are
scalable, train robustly, and are competitive in terms of sample quality and
fidelity to existing approaches for 3D generative modeling.
- Abstract(参考訳): 拡散モデルは2次元画像の生成的モデリングの最良のアプローチとして現れてきた。
彼らの成功の一部は、安定的な学習目標を持つ何十億もの画像でトレーニングできることによる。
しかし、2つの理由からこれらのモデルを3Dに拡張することは難しい。
まず、大量の3Dトレーニングデータを見つけることは、2D画像よりもはるかに複雑である。
第二に、2Dグリッドではなく3Dで動くようにモデルを拡張することは概念的には自明であるが、それに伴うメモリと計算の複雑さは、これを実現できない。
第1の課題は、トレーニング可能なエンドツーエンドの2d画像のみを監視可能な新しい拡散設定を導入すること、第2の課題は、モデルメモリと空間記憶を分離する画像形成モデルを提案することである。
本研究では,これまで3次元生成モデルのトレーニングに用いられていなかったco3dデータセットを用いて,実世界のデータに対する評価を行う。
我々の拡散モデルはスケーラブルで、堅牢に訓練されており、既存の3次元生成モデリング手法に対するサンプル品質と忠実さの点で競争力があることを示す。
関連論文リスト
- Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging
2D and 3D Diffusion Models [106.06810278075223]
2Dおよび3D拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成することができる。
3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。
本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。
論文 参考訳(メタデータ) (2023-10-12T17:22:24Z) - AG3D: Learning to Generate 3D Avatars from 2D Image Collections [96.28021214088746]
本稿では,2次元画像から現実的な3次元人物の新たな逆生成モデルを提案する。
本手法は, 全身型3Dジェネレータを用いて, 体の形状と変形を捉える。
提案手法は, 従来の3次元・調音認識手法よりも幾何的, 外観的に優れていた。
論文 参考訳(メタデータ) (2023-05-03T17:56:24Z) - 3D-aware Image Generation using 2D Diffusion Models [23.150456832947427]
我々は、3D対応画像生成タスクをマルチビュー2Dイメージセット生成として定式化し、さらにシーケンシャルな条件なしのマルチビュー画像生成プロセスにも適用する。
本研究では,2次元拡散モデルを用いて生成的モデリング能力を向上する。
我々は,既存の手法では扱えない大規模データセットであるImageNetで,本手法を訓練する。
論文 参考訳(メタデータ) (2023-03-31T09:03:18Z) - 3D Neural Field Generation using Triplane Diffusion [37.46688195622667]
ニューラルネットワークの3次元認識のための効率的な拡散ベースモデルを提案する。
当社のアプローチでは,ShapeNetメッシュなどのトレーニングデータを,連続的占有フィールドに変換することによって前処理する。
本論文では,ShapeNetのオブジェクトクラスにおける3D生成の現状について述べる。
論文 参考訳(メタデータ) (2022-11-30T01:55:52Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z) - Leveraging 2D Data to Learn Textured 3D Mesh Generation [33.32377849866736]
テクスチャ化された3Dメッシュの最初の生成モデルを示す。
我々は、各画像を3Dフォアグラウンドオブジェクトとしてモデル化することで、画像の分布を説明するためにモデルを訓練する。
レンダリングされたメッシュを生成して、トレーニングセットと同じようなイメージを生成する。
論文 参考訳(メタデータ) (2020-04-08T18:00:37Z) - Inverse Graphics GAN: Learning to Generate 3D Shapes from Unstructured
2D Data [19.807173910379966]
2次元データから3次元生成モデルを構築するための,最初のスケーラブルなトレーニング手法を紹介する。
我々は,非構造化2次元画像のトレーニングにおいて,既存のモデルよりも優れた形状を生成することができることを示す。
論文 参考訳(メタデータ) (2020-02-28T12:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。