論文の概要: DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation
- arxiv url: http://arxiv.org/abs/2405.08055v1
- Date: Mon, 13 May 2024 17:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 16:06:44.613771
- Title: DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation
- Title(参考訳): DiffTF++:大語彙3D生成のための3D対応拡散変換器
- Authors: Ziang Cao, Fangzhou Hong, Tong Wu, Liang Pan, Ziwei Liu,
- Abstract要約: 拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。
TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。
ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
- 参考スコア(独自算出の注目度): 53.20147419879056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating diverse and high-quality 3D assets automatically poses a fundamental yet challenging task in 3D computer vision. Despite extensive efforts in 3D generation, existing optimization-based approaches struggle to produce large-scale 3D assets efficiently. Meanwhile, feed-forward methods often focus on generating only a single category or a few categories, limiting their generalizability. Therefore, we introduce a diffusion-based feed-forward framework to address these challenges with a single model. To handle the large diversity and complexity in geometry and texture across categories efficiently, we 1) adopt improved triplane to guarantee efficiency; 2) introduce the 3D-aware transformer to aggregate the generalized 3D knowledge with specialized 3D features; and 3) devise the 3D-aware encoder/decoder to enhance the generalized 3D knowledge. Building upon our 3D-aware Diffusion model with TransFormer, DiffTF, we propose a stronger version for 3D generation, i.e., DiffTF++. It boils down to two parts: multi-view reconstruction loss and triplane refinement. Specifically, we utilize multi-view reconstruction loss to fine-tune the diffusion model and triplane decoder, thereby avoiding the negative influence caused by reconstruction errors and improving texture synthesis. By eliminating the mismatch between the two stages, the generative performance is enhanced, especially in texture. Additionally, a 3D-aware refinement process is introduced to filter out artifacts and refine triplanes, resulting in the generation of more intricate and reasonable details. Extensive experiments on ShapeNet and OmniObject3D convincingly demonstrate the effectiveness of our proposed modules and the state-of-the-art 3D object generation performance with large diversity, rich semantics, and high quality.
- Abstract(参考訳): 多様な高品質な3Dアセットの生成は、自動的に3Dコンピュータビジョンの基本的な課題となる。
3D生成に多大な努力を払っているにも関わらず、既存の最適化ベースのアプローチは、大規模な3Dアセットを効率的に生産するのに苦労している。
一方、フィードフォワード法は、1つのカテゴリまたはいくつかのカテゴリだけを生成することに集中し、その一般化性を制限する。
そこで本研究では,これらの課題に単一モデルで対処するための拡散型フィードフォワードフレームワークを提案する。
カテゴリー間の幾何学・テクスチャの多様性と複雑さを効果的に扱えるためには
1) 効率性を確保するために改良型三葉機を採用する。
2) 一般化された3D知識を専門的な3D特徴で集約する3D対応トランスフォーマーを導入する。
3)汎用的な3D知識を高めるために,3D対応エンコーダ/デコーダを考案する。
そこで我々は,TransFormer,DiffTFを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。
これは、多面的な再構築損失と三面体の改良という2つの部分に分けられる。
具体的には,多視点再構成損失を利用して拡散モデルとトリプレーンデコーダを微調整し,再構成誤差による負の影響を回避し,テクスチャ合成を改善する。
2つのステージ間のミスマッチを除去することにより、特にテクスチャにおいて、生成性能が向上する。
さらに、アーティファクトをろ過し、トリプレーンを精錬するために、3D対応の精錬プロセスが導入され、より複雑で合理的な細部が生成される。
ShapeNetとOmniObject3Dの大規模な実験は、提案するモジュールの有効性と、多種多様なリッチセマンティクスと高品質な最先端の3Dオブジェクト生成性能を確実に実証している。
関連論文リスト
- DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality
3D Generation [96.32684334038278]
本稿では,テキスト・ツー・3Dモデルの設計空間について検討する。
画像生成装置の代わりに映像を考慮し、マルチビュー生成を大幅に改善する。
IM-3Dは,2次元ジェネレータネットワーク10-100xの評価回数を削減する。
論文 参考訳(メタデータ) (2024-02-13T18:59:51Z) - BoostDream: Efficient Refining for High-Quality Text-to-3D Generation from Multi-View Diffusion [0.0]
BoostDreamは、粗い3D資産を高品質に変換するために設計された、高効率なプラグアンドプレイ3D精製手法である。
本研究では, フィードフォワード生成により得られた3次元アセットと異なる表現に適合する3次元モデル蒸留を導入する。
新たな多視点SDS損失を設計し、多視点認識2次元拡散モデルを用いて3次元資産を洗練させる。
論文 参考訳(メタデータ) (2024-01-30T05:59:00Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - Large-Vocabulary 3D Diffusion Model with Transformer [57.076986347047]
本稿では,1つの生成モデルを用いて実世界の3Dオブジェクトの大規模カテゴリを合成するための拡散型フィードフォワードフレームワークを提案する。
本稿では,三面体を用いた3次元拡散モデル(TransFormer, DiffTF)を提案する。
ShapeNetとOmniObject3Dの実験は、単一のDiffTFモデルが最先端の大語彙3Dオブジェクト生成性能を達成することを確実に実証している。
論文 参考訳(メタデータ) (2023-09-14T17:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。