論文の概要: Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets
- arxiv url: http://arxiv.org/abs/2505.07747v1
- Date: Mon, 12 May 2025 16:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.498307
- Title: Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets
- Title(参考訳): Step1X-3D: テクスチャ3Dアセットの高忠実性と制御可能な生成を目指して
- Authors: Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai, Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan, Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan,
- Abstract要約: Step1X-3Dは、データの不足、アルゴリズムの制限、エコシステムの断片化といった課題に対処するオープンフレームワークである。
拡散型テクスチャ合成モジュールとハイブリッドVAE-DiTジオメトリジェネレータを組み合わせた2段階の3Dネイティブアーキテクチャを提案する。
ベンチマークの結果は、既存のオープンソースメソッドを超える最先端のパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 90.99212668875971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While generative artificial intelligence has advanced significantly across text, image, audio, and video domains, 3D generation remains comparatively underdeveloped due to fundamental challenges such as data scarcity, algorithmic limitations, and ecosystem fragmentation. To this end, we present Step1X-3D, an open framework addressing these challenges through: (1) a rigorous data curation pipeline processing >5M assets to create a 2M high-quality dataset with standardized geometric and textural properties; (2) a two-stage 3D-native architecture combining a hybrid VAE-DiT geometry generator with an diffusion-based texture synthesis module; and (3) the full open-source release of models, training code, and adaptation modules. For geometry generation, the hybrid VAE-DiT component produces TSDF representations by employing perceiver-based latent encoding with sharp edge sampling for detail preservation. The diffusion-based texture synthesis module then ensures cross-view consistency through geometric conditioning and latent-space synchronization. Benchmark results demonstrate state-of-the-art performance that exceeds existing open-source methods, while also achieving competitive quality with proprietary solutions. Notably, the framework uniquely bridges the 2D and 3D generation paradigms by supporting direct transfer of 2D control techniques~(e.g., LoRA) to 3D synthesis. By simultaneously advancing data quality, algorithmic fidelity, and reproducibility, Step1X-3D aims to establish new standards for open research in controllable 3D asset generation.
- Abstract(参考訳): 生成的人工知能はテキスト、画像、オーディオ、ビデオドメインで大きく進歩しているが、データ不足、アルゴリズムの制限、エコシステムの断片化といった根本的な課題のために、3D生成は比較的未発達のままである。
この目的のために,(1)厳密なデータキュレーションパイプライン処理 > 5Mアセットを用いて,標準化された幾何学的およびテクスチャ特性を持つ2Mの高品質データセットを作成する,(2) ハイブリッドなVAE-DiTジオメトリジェネレータと拡散ベースのテクスチャ合成モジュールを組み合わせた2段階の3Dネイティブアーキテクチャ,(3) モデル,トレーニングコード,適応モジュールの完全なオープンソースリリース,といった課題に対処するオープンフレームワークであるStep1X-3Dを提案する。
幾何生成のために、ハイブリッドVAE-DiTコンポーネントは、シャープエッジサンプリングによる知覚子に基づく潜伏符号化を用いてTSDF表現を生成し、詳細な保存を行う。
拡散に基づくテクスチャ合成モジュールは、幾何学的条件付けと潜時空間同期によるクロスビュー整合性を保証する。
ベンチマークの結果は、既存のオープンソースメソッドを超える最先端のパフォーマンスを示しながら、プロプライエタリなソリューションと競合する品質を実現している。
特に、このフレームワークは、2D制御技術~(e g , LoRA)を3D合成に直接転送することで、2Dおよび3D生成パラダイムをユニークにブリッジする。
データ品質、アルゴリズムの忠実度、再現性を同時に進めることにより、Step1X-3Dは、制御可能な3Dアセット生成におけるオープンリサーチのための新しい標準を確立することを目指している。
関連論文リスト
- End-to-End Fine-Tuning of 3D Texture Generation using Differentiable Rewards [8.953379216683732]
本稿では,人間のフィードバックを3次元テクスチャパイプラインに直接埋め込む,エンドツーエンドの微分可能・強化学習不要なフレームワークを提案する。
幾何学的および外見的モジュールによる好み信号のバックプロパゲーションにより、3次元幾何学的構造を尊重し、所望の基準と整合するテクスチャを生成する。
論文 参考訳(メタデータ) (2025-06-23T06:24:12Z) - Advancing high-fidelity 3D and Texture Generation with 2.5D latents [21.33523572280285]
本稿では3次元幾何学とテクスチャの融合生成のための新しい枠組みを提案する。
具体的には、2Dと3Dの間でシームレスに変換できる汎用2.5D表現を生成することに重点を置いている。
我々のモデルは、テキストや画像からのコヒーレントな構造と色を持つ高品質な3Dオブジェクトの生成に優れるだけでなく、テクスチャ生成における既存の手法よりも優れています。
論文 参考訳(メタデータ) (2025-05-27T11:35:35Z) - Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation [56.862552362223425]
本稿では,多様な入力プロンプトから高品質な3次元形状とテクスチャを生成するための包括的枠組みを提案する。
フレームワークは3次元形状生成とテクスチャ生成で構成されている。
本報告では,フレームワークの改良と拡張に向けたシステムアーキテクチャ,実験結果,今後の方向性について述べる。
論文 参考訳(メタデータ) (2025-02-20T04:22:30Z) - TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models [69.0220314849478]
TripoSGは、入力画像に正確に対応した高忠実度3Dメッシュを生成することができる新しい合理化形状拡散パラダイムである。
結果として得られた3D形状は、高解像度の能力によって細部が強化され、入力画像に異常な忠実さを示す。
3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
論文 参考訳(メタデータ) (2025-02-10T16:07:54Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - 3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion [86.25111098482537]
3DTopia-XLは,既存の手法の限界を克服するために設計された,スケーラブルなネイティブな3D生成モデルである。
3DTopia-XLは、新しいプリミティブベースの3D表現であるPrimXを利用して、詳細な形状、アルベド、マテリアルフィールドをコンパクトなテンソル形式にエンコードする。
その上で, 1) 原始的パッチ圧縮, 2) および潜在的原始的拡散を含む拡散変換器(DiT)に基づく生成フレームワークを提案する。
我々は,3DTopia-XLが既存の手法よりも高い性能を示すことを示すために,広範囲な定性的,定量的な実験を行った。
論文 参考訳(メタデータ) (2024-09-19T17:59:06Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D
priors [16.93758384693786]
双方向拡散(Bidirectional Diffusion、BiDiff)は、3次元と2次元の拡散プロセスの両方を組み込んだ統合フレームワークである。
我々のモデルは高品質で多種多様でスケーラブルな3D生成を実現する。
論文 参考訳(メタデータ) (2023-12-07T10:00:04Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。