論文の概要: Deep Generative Models on 3D Representations: A Survey
- arxiv url: http://arxiv.org/abs/2210.15663v3
- Date: Mon, 28 Aug 2023 03:02:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 01:22:41.011052
- Title: Deep Generative Models on 3D Representations: A Survey
- Title(参考訳): 3次元表現の深部生成モデルに関する研究
- Authors: Zifan Shi, Sida Peng, Yinghao Xu, Andreas Geiger, Yiyi Liao, and Yujun
Shen
- Abstract要約: 生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
- 参考スコア(独自算出の注目度): 81.73385191402419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models aim to learn the distribution of observed data by
generating new instances. With the advent of neural networks, deep generative
models, including variational autoencoders (VAEs), generative adversarial
networks (GANs), and diffusion models (DMs), have progressed remarkably in
synthesizing 2D images. Recently, researchers started to shift focus from 2D to
3D space, considering that 3D data is more closely aligned with our physical
world and holds immense practical potential. However, unlike 2D images, which
possess an inherent and efficient representation (\textit{i.e.}, a pixel grid),
representing 3D data poses significantly greater challenges. Ideally, a robust
3D representation should be capable of accurately modeling complex shapes and
appearances while being highly efficient in handling high-resolution data with
high processing speeds and low memory requirements. Regrettably, existing 3D
representations, such as point clouds, meshes, and neural fields, often fail to
satisfy all of these requirements simultaneously. In this survey, we thoroughly
review the ongoing developments of 3D generative models, including methods that
employ 2D and 3D supervision. Our analysis centers on generative models, with a
particular focus on the representations utilized in this context. We believe
our survey will help the community to track the field's evolution and to spark
innovative ideas to propel progress towards solving this challenging task.
- Abstract(参考訳): 生成モデルは、新しいインスタンスを生成して観測データの分布を学ぶことを目的としている。
ニューラルネットワークの出現に伴い, 可変オートエンコーダ(VAE), GAN(Generative Adversarial Network), 拡散モデル(DM)などの深部生成モデルは, 2次元画像の合成において著しく進展した。
最近、研究者たちは3Dデータが我々の物理的世界とより密接な関係にあり、非常に実用的な可能性を秘めていることを考慮して、2Dから3Dに焦点を移し始めた。
しかし、固有かつ効率的な表現を持つ2D画像(\textit{i.e.}、ピクセルグリッド)とは異なり、3Dデータを表現することは大きな課題となる。
理想的には、堅牢な3D表現は複雑な形状や外観を正確にモデル化でき、高い処理速度と低メモリ要求で高解像度のデータを処理できる。
当然のことながら、ポイントクラウド、メッシュ、ニューラルネットワークといった既存の3D表現は、これらすべての要件を同時に満たさないことが多い。
本稿では,2次元および3次元の監視手法を含む3次元生成モデルの開発状況について概観する。
この文脈で使用される表現に特に焦点をあてた生成モデルを中心に分析を行った。
我々の調査は、コミュニティがフィールドの進化を追跡し、この課題を解決するための革新的なアイデアを創り出すのに役立つと信じています。
関連論文リスト
- Diffusion Models in 3D Vision: A Survey [11.116658321394755]
本稿では,3次元視覚タスクの拡散モデルを利用する最先端のアプローチについて概説する。
これらのアプローチには、3Dオブジェクト生成、形状補完、点雲再構成、シーン理解が含まれる。
本稿では,計算効率の向上,マルチモーダル融合の強化,大規模事前学習の活用などの可能性について論じる。
論文 参考訳(メタデータ) (2024-10-07T04:12:23Z) - Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - Progress and Prospects in 3D Generative AI: A Technical Overview
including 3D human [51.58094069317723]
本稿は,2023年後半に主に刊行された関連論文の概要と概要を概説することを目的とする。
最初は、AIが生成したオブジェクトモデルを3Dで議論し、続いて生成された3Dの人間モデル、そして最後に生成された3Dの人間の動きを、決定的な要約と未来へのビジョンで結論付ける。
論文 参考訳(メタデータ) (2024-01-05T03:41:38Z) - 3D GANs and Latent Space: A comprehensive survey [0.0]
3D GANは、3D再構成、ポイントクラウド再構成、および3Dセマンティックシーン補完に使用される新しいタイプの生成モデルである。
雑音の分布の選択は、遅延空間を表すため重要である。
本研究は,潜伏空間と3D GANを探索し,複数のGAN変種と訓練方法を調べ,3D GAN訓練の改善に関する洞察を得るとともに,今後の研究の方向性を示唆するものである。
論文 参考訳(メタデータ) (2023-04-08T06:36:07Z) - HoloDiffusion: Training a 3D Diffusion Model using 2D Images [71.1144397510333]
我々は,2次元画像のみを監督のために配置した,エンドツーエンドでトレーニング可能な新しい拡散装置を導入する。
我々の拡散モデルはスケーラブルで、頑健に訓練されており、既存の3次元生成モデルへのアプローチに対して、サンプルの品質と忠実さの点で競争力があることを示す。
論文 参考訳(メタデータ) (2023-03-29T07:35:56Z) - 3D Neural Field Generation using Triplane Diffusion [37.46688195622667]
ニューラルネットワークの3次元認識のための効率的な拡散ベースモデルを提案する。
当社のアプローチでは,ShapeNetメッシュなどのトレーニングデータを,連続的占有フィールドに変換することによって前処理する。
本論文では,ShapeNetのオブジェクトクラスにおける3D生成の現状について述べる。
論文 参考訳(メタデータ) (2022-11-30T01:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。