論文の概要: TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models
- arxiv url: http://arxiv.org/abs/2502.06608v3
- Date: Thu, 27 Mar 2025 17:25:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:50:04.726701
- Title: TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models
- Title(参考訳): TripoSG:大規模整流モデルを用いた高精度3次元形状合成
- Authors: Yangguang Li, Zi-Xin Zou, Zexiang Liu, Dehu Wang, Yuan Liang, Zhipeng Yu, Xingchao Liu, Yuan-Chen Guo, Ding Liang, Wanli Ouyang, Yan-Pei Cao,
- Abstract要約: TripoSGは、入力画像に正確に対応した高忠実度3Dメッシュを生成することができる新しい合理化形状拡散パラダイムである。
結果として得られた3D形状は、高解像度の能力によって細部が強化され、入力画像に異常な忠実さを示す。
3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
- 参考スコア(独自算出の注目度): 69.0220314849478
- License:
- Abstract: Recent advancements in diffusion techniques have propelled image and video generation to unprecedented levels of quality, significantly accelerating the deployment and application of generative AI. However, 3D shape generation technology has so far lagged behind, constrained by limitations in 3D data scale, complexity of 3D data processing, and insufficient exploration of advanced techniques in the 3D domain. Current approaches to 3D shape generation face substantial challenges in terms of output quality, generalization capability, and alignment with input conditions. We present TripoSG, a new streamlined shape diffusion paradigm capable of generating high-fidelity 3D meshes with precise correspondence to input images. Specifically, we propose: 1) A large-scale rectified flow transformer for 3D shape generation, achieving state-of-the-art fidelity through training on extensive, high-quality data. 2) A hybrid supervised training strategy combining SDF, normal, and eikonal losses for 3D VAE, achieving high-quality 3D reconstruction performance. 3) A data processing pipeline to generate 2 million high-quality 3D samples, highlighting the crucial rules for data quality and quantity in training 3D generative models. Through comprehensive experiments, we have validated the effectiveness of each component in our new framework. The seamless integration of these parts has enabled TripoSG to achieve state-of-the-art performance in 3D shape generation. The resulting 3D shapes exhibit enhanced detail due to high-resolution capabilities and demonstrate exceptional fidelity to input images. Moreover, TripoSG demonstrates improved versatility in generating 3D models from diverse image styles and contents, showcasing strong generalization capabilities. To foster progress and innovation in the field of 3D generation, we will make our model publicly available.
- Abstract(参考訳): 近年の拡散技術の発展は、画像生成と映像生成を前例のない品質に推進し、生成AIの展開と適用を著しく加速している。
しかし,従来の3次元形状生成技術は,3次元データスケールの制限,3次元データ処理の複雑化,および3次元領域における高度な技術探索の不十分さに制約されていた。
3次元形状生成への現在のアプローチは、出力品質、一般化能力、入力条件との整合性といった面で大きな課題に直面している。
本稿では,入力画像に正確に対応した高忠実度3Dメッシュを生成可能な,新しい合理化形状拡散パラダイムTripoSGを提案する。
具体的には、
1) 3次元形状生成のための大規模整流流変圧器を試作し, 高精度なデータのトレーニングにより, 最先端の忠実性を実現する。
2) SDF, normal, and eikonal loss for 3D VAE を併用し,高品質な3D再構成性能を実現するハイブリッド型指導訓練戦略について検討した。
3)データ処理パイプラインは200万個の高品質な3Dサンプルを生成し、データ品質と3D生成モデルのトレーニングにおける量の重要なルールを強調します。
総合的な実験を通じて、我々は新しいフレームワークにおける各コンポーネントの有効性を検証した。
これらの部品のシームレスな統合により、TripoSGは3D形状生成における最先端の性能を達成することができる。
結果として得られた3D形状は、高解像度の能力によって細部が強化され、入力画像に異常な忠実さを示す。
さらに、TripoSGは、多様な画像スタイルやコンテンツから3Dモデルを生成する際の汎用性を向上し、強力な一般化能力を示している。
3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
関連論文リスト
- Taming Feed-forward Reconstruction Models as Latent Encoders for 3D Generative Models [7.485139478358133]
最近のAIベースの3Dコンテンツ作成は、フィードフォワード画像から3Dへの再構成アプローチと、2Dまたは3D監視でトレーニングされた3D生成モデルという、2つの経路に沿って大きく進化している。
本稿では,既存のフィードフォワード再構成手法が3次元生成モデルのトレーニングに有効な潜伏エンコーダとして有効であることを示し,これら2つのパラダイムをブリッジする。
論文 参考訳(メタデータ) (2024-12-31T21:23:08Z) - DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation [53.20147419879056]
拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。
TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。
ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
論文 参考訳(メタデータ) (2024-05-13T17:59:51Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - Pushing the Limits of 3D Shape Generation at Scale [65.24420181727615]
我々は、前例のない次元に拡大することで、3次元形状生成において画期的なブレークスルーを示す。
現在までに最大の3次元形状生成モデルとしてArgus-3Dが確立されている。
論文 参考訳(メタデータ) (2023-06-20T13:01:19Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z) - IC3D: Image-Conditioned 3D Diffusion for Shape Generation [4.470499157873342]
Denoising Diffusion Probabilistic Models (DDPM) は様々な2次元生成タスクにおいて例外的な性能を示した。
我々は,CISP (Contrastive Image-Shape Pre-Training)を導入し,画像-形状の接合空間を適切に構成した。
次に,CISPの3次元形状生成誘導を利用するDDPMであるIC3Dを紹介する。
論文 参考訳(メタデータ) (2022-11-20T04:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。