論文の概要: DreamLifting: A Plug-in Module Lifting MV Diffusion Models for 3D Asset Generation
- arxiv url: http://arxiv.org/abs/2509.07435v1
- Date: Tue, 09 Sep 2025 06:43:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.195608
- Title: DreamLifting: A Plug-in Module Lifting MV Diffusion Models for 3D Asset Generation
- Title(参考訳): DreamLifting:3次元アセット生成のためのMV拡散モデルプラグインモジュール
- Authors: Ze-Xin Yin, Jiaxiong Qiu, Liu Liu, Xinjie Wang, Wei Sui, Zhizhong Su, Jian Yang, Jin Xie,
- Abstract要約: 軽量ガウスアセットアダプタ(LGAA)は幾何学とPBRのモデリングを統合する新しいフレームワークである。
私たちのコード、トレーニング済みの重み、使用したデータセットは、プロジェクトのページから公開されます。
- 参考スコア(独自算出の注目度): 28.051782483658396
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The labor- and experience-intensive creation of 3D assets with physically based rendering (PBR) materials demands an autonomous 3D asset creation pipeline. However, most existing 3D generation methods focus on geometry modeling, either baking textures into simple vertex colors or leaving texture synthesis to post-processing with image diffusion models. To achieve end-to-end PBR-ready 3D asset generation, we present Lightweight Gaussian Asset Adapter (LGAA), a novel framework that unifies the modeling of geometry and PBR materials by exploiting multi-view (MV) diffusion priors from a novel perspective. The LGAA features a modular design with three components. Specifically, the LGAA Wrapper reuses and adapts network layers from MV diffusion models, which encapsulate knowledge acquired from billions of images, enabling better convergence in a data-efficient manner. To incorporate multiple diffusion priors for geometry and PBR synthesis, the LGAA Switcher aligns multiple LGAA Wrapper layers encapsulating different knowledge. Then, a tamed variational autoencoder (VAE), termed LGAA Decoder, is designed to predict 2D Gaussian Splatting (2DGS) with PBR channels. Finally, we introduce a dedicated post-processing procedure to effectively extract high-quality, relightable mesh assets from the resulting 2DGS. Extensive quantitative and qualitative experiments demonstrate the superior performance of LGAA with both text-and image-conditioned MV diffusion models. Additionally, the modular design enables flexible incorporation of multiple diffusion priors, and the knowledge-preserving scheme leads to efficient convergence trained on merely 69k multi-view instances. Our code, pre-trained weights, and the dataset used will be publicly available via our project page: https://zx-yin.github.io/dreamlifting/.
- Abstract(参考訳): 物理ベースレンダリング(PBR)材料を用いた3Dアセットの労働と経験の集約的な作成は、自律的な3Dアセット生成パイプラインを必要とする。
しかし、既存の3D生成手法の多くは、テクスチャを単純な頂点色に焼いたり、テクスチャ合成をイメージ拡散モデルによる後処理に残したりといった幾何学的モデリングに重点を置いている。
本稿では,PBRを終端から終端まで対応可能な3Dアセット生成を実現するために,新しい視点から多視点拡散先を利用して幾何学とPBR材料のモデリングを統一する軽量ガウスアセットアダプタ(LGAA)を提案する。
LGAAはモジュラーデザインで3つのコンポーネントを備えている。
具体的には、LGAA WrapperはMV拡散モデルからネットワーク層を再利用し、適応させ、何十億もの画像から取得した知識をカプセル化し、データ効率のよい収束を可能にする。
幾何とPBR合成のための複数の拡散先を組み込むため、LGAAスイッチナーは異なる知識をカプセル化した複数のLGAAラッパー層を整列させる。
次に,LGAAデコーダと呼ばれるタグ付き変分オートエンコーダ (VAE) を用いて,PBRチャネルを用いた2次元ガウススプラッティング (2DGS) の予測を行う。
最後に,得られた2DGSから高品質で光沢のあるメッシュ資産を効果的に抽出する,専用の後処理手法を提案する。
広汎な定量的および定性的実験は、テキストおよび画像条件のMV拡散モデルによるLGAAの優れた性能を示す。
さらに、モジュール設計により、複数の拡散先を柔軟に組み込むことができ、知識保存スキームは、69kのマルチビューインスタンスで訓練された効率的な収束をもたらす。
私たちのコード、トレーニング済み重量、使用したデータセットは、プロジェクトページから公開されます。
関連論文リスト
- MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model [87.71060849866093]
MVGenMasterは3Dプリエントで拡張された多視点拡散モデルであり,NVS(多目的なノベルビュー合成)タスクに対処する。
我々のモデルは、可変参照ビューとカメラポーズで条件付けられた100の新しいビューを生成できる、シンプルで効果的なパイプラインを特徴としている。
スケールアップデータセットを用いてモデルを強化するために,いくつかのトレーニングとモデル修正を提案する。
論文 参考訳(メタデータ) (2024-11-25T07:34:23Z) - MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。
オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。
実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文 参考訳(メタデータ) (2024-06-10T15:26:48Z) - Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting [9.383423119196408]
本稿では,既存の多視点拡散モデルを強化するために設計されたニューラルネットワークアーキテクチャであるMulti-view ControlNet(MVControl)を紹介する。
MVControlは最適化ベースの3D生成のための3D拡散ガイダンスを提供することができる。
効率性を追求するために、一般的に使用される暗黙の表現の代わりに、3Dガウスを表現として採用する。
論文 参考訳(メタデータ) (2024-03-15T02:57:20Z) - Breathing New Life into 3D Assets with Generative Repainting [74.80184575267106]
拡散ベースのテキスト・ツー・イメージ・モデルは、ビジョン・コミュニティ、アーティスト、コンテンツ・クリエーターから大きな注目を集めた。
近年の研究では、拡散モデルとニューラルネットワークの絡み合いを利用した様々なパイプラインが提案されている。
予備訓練された2次元拡散モデルと標準3次元ニューラルラジアンスフィールドのパワーを独立したスタンドアロンツールとして検討する。
我々のパイプラインはテクスチャ化されたメッシュや無テクスチャのメッシュのような、レガシなレンダリング可能な幾何学を受け入れ、2D生成の洗練と3D整合性強化ツール間の相互作用をオーケストレーションします。
論文 参考訳(メタデータ) (2023-09-15T16:34:51Z) - 3DGen: Triplane Latent Diffusion for Textured Mesh Generation [17.178939191534994]
三面体VAEは、テクスチャメッシュの潜時表現を学習し、条件拡散モデルが三面体の特徴を生成する。
このアーキテクチャは初めて、高品質なテクスチャ化された、3Dメッシュの条件付きおよび非条件生成を可能にする。
メッシュの品質とテクスチャ生成において、イメージコンディショニングと非コンディショナリ生成において、従来よりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-03-09T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。