論文の概要: Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation
- arxiv url: http://arxiv.org/abs/2502.14247v2
- Date: Fri, 21 Feb 2025 19:09:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 12:07:52.720052
- Title: Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation
- Title(参考訳): Pandora3D: 高品質な3D形状とテクスチャ生成のための総合的なフレームワーク
- Authors: Jiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Cheng, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji,
- Abstract要約: 本稿では,多様な入力プロンプトから高品質な3次元形状とテクスチャを生成するための包括的枠組みを提案する。
フレームワークは3次元形状生成とテクスチャ生成で構成されている。
本報告では,フレームワークの改良と拡張に向けたシステムアーキテクチャ,実験結果,今後の方向性について述べる。
- 参考スコア(独自算出の注目度): 56.862552362223425
- License:
- Abstract: This report presents a comprehensive framework for generating high-quality 3D shapes and textures from diverse input prompts, including single images, multi-view images, and text descriptions. The framework consists of 3D shape generation and texture generation. (1). The 3D shape generation pipeline employs a Variational Autoencoder (VAE) to encode implicit 3D geometries into a latent space and a diffusion network to generate latents conditioned on input prompts, with modifications to enhance model capacity. An alternative Artist-Created Mesh (AM) generation approach is also explored, yielding promising results for simpler geometries. (2). Texture generation involves a multi-stage process starting with frontal images generation followed by multi-view images generation, RGB-to-PBR texture conversion, and high-resolution multi-view texture refinement. A consistency scheduler is plugged into every stage, to enforce pixel-wise consistency among multi-view textures during inference, ensuring seamless integration. The pipeline demonstrates effective handling of diverse input formats, leveraging advanced neural architectures and novel methodologies to produce high-quality 3D content. This report details the system architecture, experimental results, and potential future directions to improve and expand the framework. The source code and pretrained weights are released at: https://github.com/Tencent/Tencent-XR-3DGen.
- Abstract(参考訳): 本稿では,単一画像,マルチビュー画像,テキスト記述など,多様な入力プロンプトから高品質な3D形状とテクスチャを生成するための包括的なフレームワークを提案する。
フレームワークは3次元形状生成とテクスチャ生成で構成されている。
1)。
3D形状生成パイプラインは、変分オートエンコーダ(VAE)を使用して、暗黙の3Dジオメトリを潜在空間にエンコードし、拡散ネットワークを使用して入力プロンプトに条件付き潜時を生成する。
代替のArtist-Created Mesh (AM) 生成手法も検討され、より単純なジオメトリに対して有望な結果が得られる。
(2)。
テクスチャ生成には、正面画像生成から始まる多段階プロセス、マルチビュー画像生成、RGB-to-PBRテクスチャ変換、高解像度マルチビューテクスチャ改善が含まれる。
整合性スケジューラを各ステージにプラグインし、推論中に多視点テクスチャ間の画素単位の整合性を強制し、シームレスな統合を保証する。
パイプラインは多様な入力形式を効果的に扱い、高度なニューラルアーキテクチャと新しい方法論を活用して高品質な3Dコンテンツを生成する。
本報告では,フレームワークの改良と拡張に向けたシステムアーキテクチャ,実験結果,今後の方向性について述べる。
ソースコードと事前トレーニングされたウェイトは、https://github.com/Tencent/Tencent-XR-3DGen.comで公開されている。
関連論文リスト
- Direct and Explicit 3D Generation from a Single Image [25.207277983430608]
マルチビュー2次元深度画像とRGB画像を用いて表面形状とテクスチャを直接生成する新しいフレームワークを提案する。
画素レベルの多視点整合性を実現するために,エピポーラの注意を潜時から画素間デコーダに組み込む。
生成した深度画素を3次元空間にバックプロジェクションすることにより、構造化された3次元表現を生成する。
論文 参考訳(メタデータ) (2024-11-17T03:14:50Z) - Meta 3D TextureGen: Fast and Consistent Texture Generation for 3D Objects [54.80813150893719]
高品質なテクスチャを20秒未満で生成することを目的とした,2つのシーケンシャルネットワークで構成される新しいフィードフォワード方式であるMeta 3D TextureGenを紹介する。
提案手法は,2次元空間の3次元セマンティクスにテキスト・ツー・イメージ・モデルを適用し,それらを完全かつ高解像度なUVテクスチャマップに融合することにより,品質とスピードを向上する。
さらに、任意の比率で任意のテクスチャをアップスケーリングできるテクスチャ拡張ネットワークを導入し、4kピクセルの解像度テクスチャを生成します。
論文 参考訳(メタデータ) (2024-07-02T17:04:34Z) - Text-guided Controllable Mesh Refinement for Interactive 3D Modeling [48.226234898333]
テキストプロンプトによって案内される入力粗い3Dメッシュに幾何学的詳細を加える新しい手法を提案する。
まず、入力粗い幾何学と入力テキストプロンプトに基づいて、単一のビューRGB画像を生成する。
第2に、新しいマルチビュー正規生成アーキテクチャを用いて、正常画像の6つの異なるビューを共同で生成する。
第3に、すべてのビューに対してメッシュを最適化し、出力として微細で詳細な幾何学を生成する。
論文 参考訳(メタデータ) (2024-06-03T17:59:43Z) - Magic-Boost: Boost 3D Generation with Multi-View Conditioned Diffusion [101.15628083270224]
本稿では,高忠実度新鮮映像を合成する多視点拡散モデルを提案する。
次に,得られた粗い結果を精査するための厳密なガイダンスを提供するために,新しい反復更新戦略を導入する。
実験の結果、Magic-Boostは粗いインプットを大幅に強化し、リッチな幾何学的およびテクスチュラルな詳細を持つ高品質な3Dアセットを生成する。
論文 参考訳(メタデータ) (2024-04-09T16:20:03Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。