論文の概要: Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets
- arxiv url: http://arxiv.org/abs/2505.07747v1
- Date: Mon, 12 May 2025 16:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.498307
- Title: Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets
- Title(参考訳): Step1X-3D: テクスチャ3Dアセットの高忠実性と制御可能な生成を目指して
- Authors: Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai, Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan, Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan,
- Abstract要約: Step1X-3Dは、データの不足、アルゴリズムの制限、エコシステムの断片化といった課題に対処するオープンフレームワークである。
拡散型テクスチャ合成モジュールとハイブリッドVAE-DiTジオメトリジェネレータを組み合わせた2段階の3Dネイティブアーキテクチャを提案する。
ベンチマークの結果は、既存のオープンソースメソッドを超える最先端のパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 90.99212668875971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While generative artificial intelligence has advanced significantly across text, image, audio, and video domains, 3D generation remains comparatively underdeveloped due to fundamental challenges such as data scarcity, algorithmic limitations, and ecosystem fragmentation. To this end, we present Step1X-3D, an open framework addressing these challenges through: (1) a rigorous data curation pipeline processing >5M assets to create a 2M high-quality dataset with standardized geometric and textural properties; (2) a two-stage 3D-native architecture combining a hybrid VAE-DiT geometry generator with an diffusion-based texture synthesis module; and (3) the full open-source release of models, training code, and adaptation modules. For geometry generation, the hybrid VAE-DiT component produces TSDF representations by employing perceiver-based latent encoding with sharp edge sampling for detail preservation. The diffusion-based texture synthesis module then ensures cross-view consistency through geometric conditioning and latent-space synchronization. Benchmark results demonstrate state-of-the-art performance that exceeds existing open-source methods, while also achieving competitive quality with proprietary solutions. Notably, the framework uniquely bridges the 2D and 3D generation paradigms by supporting direct transfer of 2D control techniques~(e.g., LoRA) to 3D synthesis. By simultaneously advancing data quality, algorithmic fidelity, and reproducibility, Step1X-3D aims to establish new standards for open research in controllable 3D asset generation.
- Abstract(参考訳): 生成的人工知能はテキスト、画像、オーディオ、ビデオドメインで大きく進歩しているが、データ不足、アルゴリズムの制限、エコシステムの断片化といった根本的な課題のために、3D生成は比較的未発達のままである。
この目的のために,(1)厳密なデータキュレーションパイプライン処理 > 5Mアセットを用いて,標準化された幾何学的およびテクスチャ特性を持つ2Mの高品質データセットを作成する,(2) ハイブリッドなVAE-DiTジオメトリジェネレータと拡散ベースのテクスチャ合成モジュールを組み合わせた2段階の3Dネイティブアーキテクチャ,(3) モデル,トレーニングコード,適応モジュールの完全なオープンソースリリース,といった課題に対処するオープンフレームワークであるStep1X-3Dを提案する。
幾何生成のために、ハイブリッドVAE-DiTコンポーネントは、シャープエッジサンプリングによる知覚子に基づく潜伏符号化を用いてTSDF表現を生成し、詳細な保存を行う。
拡散に基づくテクスチャ合成モジュールは、幾何学的条件付けと潜時空間同期によるクロスビュー整合性を保証する。
ベンチマークの結果は、既存のオープンソースメソッドを超える最先端のパフォーマンスを示しながら、プロプライエタリなソリューションと競合する品質を実現している。
特に、このフレームワークは、2D制御技術~(e g , LoRA)を3D合成に直接転送することで、2Dおよび3D生成パラダイムをユニークにブリッジする。
データ品質、アルゴリズムの忠実度、再現性を同時に進めることにより、Step1X-3Dは、制御可能な3Dアセット生成におけるオープンリサーチのための新しい標準を確立することを目指している。
関連論文リスト
- TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models [69.0220314849478]
TripoSGは、入力画像に正確に対応した高忠実度3Dメッシュを生成することができる新しい合理化形状拡散パラダイムである。
結果として得られた3D形状は、高解像度の能力によって細部が強化され、入力画像に異常な忠実さを示す。
3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
論文 参考訳(メタデータ) (2025-02-10T16:07:54Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D
priors [16.93758384693786]
双方向拡散(Bidirectional Diffusion、BiDiff)は、3次元と2次元の拡散プロセスの両方を組み込んだ統合フレームワークである。
我々のモデルは高品質で多種多様でスケーラブルな3D生成を実現する。
論文 参考訳(メタデータ) (2023-12-07T10:00:04Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。