論文の概要: CAD: Photorealistic 3D Generation via Adversarial Distillation
- arxiv url: http://arxiv.org/abs/2312.06663v1
- Date: Mon, 11 Dec 2023 18:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 14:11:21.483522
- Title: CAD: Photorealistic 3D Generation via Adversarial Distillation
- Title(参考訳): CAD: 逆蒸留による光リアルな3D生成
- Authors: Ziyu Wan, Despoina Paschalidou, Ian Huang, Hongyu Liu, Bokui Shen,
Xiaoyu Xiang, Jing Liao, Leonidas Guibas
- Abstract要約: 本稿では,事前学習した拡散モデルを用いた3次元合成のための新しい学習パラダイムを提案する。
提案手法は,1つの画像に条件付された高忠実かつ光リアルな3Dコンテンツの生成を解放し,プロンプトを行う。
- 参考スコア(独自算出の注目度): 28.07049413820128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increased demand for 3D data in AR/VR, robotics and gaming applications,
gave rise to powerful generative pipelines capable of synthesizing high-quality
3D objects. Most of these models rely on the Score Distillation Sampling (SDS)
algorithm to optimize a 3D representation such that the rendered image
maintains a high likelihood as evaluated by a pre-trained diffusion model.
However, finding a correct mode in the high-dimensional distribution produced
by the diffusion model is challenging and often leads to issues such as
over-saturation, over-smoothing, and Janus-like artifacts. In this paper, we
propose a novel learning paradigm for 3D synthesis that utilizes pre-trained
diffusion models. Instead of focusing on mode-seeking, our method directly
models the distribution discrepancy between multi-view renderings and diffusion
priors in an adversarial manner, which unlocks the generation of high-fidelity
and photorealistic 3D content, conditioned on a single image and prompt.
Moreover, by harnessing the latent space of GANs and expressive diffusion model
priors, our method facilitates a wide variety of 3D applications including
single-view reconstruction, high diversity generation and continuous 3D
interpolation in the open domain. The experiments demonstrate the superiority
of our pipeline compared to previous works in terms of generation quality and
diversity.
- Abstract(参考訳): AR/VR、ロボティクス、ゲームアプリケーションにおける3Dデータの需要の増加は、高品質な3Dオブジェクトを合成できる強力な生成パイプラインを生み出した。
これらのモデルのほとんどはスコア蒸留サンプリング(sds)アルゴリズムに依存しており、レンダリングされた画像が事前訓練された拡散モデルによって評価される高い確率を維持するように3d表現を最適化している。
しかし、拡散モデルによって生成される高次元分布の正しいモードを見つけることは困難であり、しばしば過飽和、過平滑化、ヤヌスのようなアーティファクトといった問題につながる。
本稿では,事前学習した拡散モデルを用いた3次元合成のための新しい学習パラダイムを提案する。
モード探索に焦点をあてる代わりに,マルチビューレンダリングと拡散先行の分布差を直接逆向きにモデル化し,高忠実度・光実写3Dコンテンツの生成を1つの画像に条件付きで解放し,プロンプトする。
さらに, GANの潜伏空間と表現拡散モデルの先行性を利用して, 単一視点再構成, 高多様性生成, オープン領域における連続的な3次元補間など, 多様な3次元アプリケーションを実現する。
実験は、生成品質と多様性の観点から、以前の作品と比較してパイプラインの優越性を示すものです。
関連論文リスト
- DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation [33.62074896816882]
DiffSplatは,大規模テキスト・画像拡散モデルを用いて3次元ガウススプラットを生成する新しい3次元生成フレームワークである。
従来の3D生成モデルと異なり、Webスケールの2D事前を効果的に活用しつつ、統一モデルにおける3D一貫性を維持している。
これらの格子上の正規拡散損失と合わせて、3Dレンダリング損失を導入し、任意のビューの3Dコヒーレンスを促進する。
論文 参考訳(メタデータ) (2025-01-28T07:38:59Z) - Zero-1-to-G: Taming Pretrained 2D Diffusion Model for Direct 3D Generation [66.75243908044538]
我々は,事前学習した2次元拡散モデルを用いたガウススプラット上での3次元直接生成手法であるZero-1-to-Gを導入する。
3D認識を取り入れるために,複雑な相関関係を捉え,生成されたスプラット間の3D一貫性を強制する,クロスビュー層とクロスアトリビュートアテンション層を導入する。
これにより、Zero-1-to-Gは、事前訓練された2D拡散前処理を効果的に活用する最初の直接画像から3D生成モデルとなり、効率的なトレーニングと未確認物体への一般化が実現された。
論文 参考訳(メタデータ) (2025-01-09T18:37:35Z) - DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。
実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文 参考訳(メタデータ) (2024-12-11T07:32:17Z) - Towards High-Fidelity 3D Portrait Generation with Rich Details by Cross-View Prior-Aware Diffusion [63.81544586407943]
シングルイメージの3Dポートレート生成法は通常、多視点の知識を提供するために2次元拡散モデルを使用し、それを3次元表現に蒸留する。
本稿では,複数ビュー画像の状態の整合性を高める条件として,複数ビュー先行を明示的かつ暗黙的に組み込んだハイブリッド優先ディフジョンモデルを提案する。
実験により,1枚の画像から正確な幾何学的,詳細な3次元像を作成できることが示された。
論文 参考訳(メタデータ) (2024-11-15T17:19:18Z) - 4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。
モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:18:39Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - 3D Neural Field Generation using Triplane Diffusion [37.46688195622667]
ニューラルネットワークの3次元認識のための効率的な拡散ベースモデルを提案する。
当社のアプローチでは,ShapeNetメッシュなどのトレーニングデータを,連続的占有フィールドに変換することによって前処理する。
本論文では,ShapeNetのオブジェクトクラスにおける3D生成の現状について述べる。
論文 参考訳(メタデータ) (2022-11-30T01:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。