論文の概要: Large-Vocabulary 3D Diffusion Model with Transformer
- arxiv url: http://arxiv.org/abs/2309.07920v2
- Date: Fri, 15 Sep 2023 07:56:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 11:31:24.814385
- Title: Large-Vocabulary 3D Diffusion Model with Transformer
- Title(参考訳): 変圧器を用いた大語彙3次元拡散モデル
- Authors: Ziang Cao, Fangzhou Hong, Tong Wu, Liang Pan, Ziwei Liu
- Abstract要約: 本稿では,1つの生成モデルを用いて実世界の3Dオブジェクトの大規模カテゴリを合成するための拡散型フィードフォワードフレームワークを提案する。
本稿では,三面体を用いた3次元拡散モデル(TransFormer, DiffTF)を提案する。
ShapeNetとOmniObject3Dの実験は、単一のDiffTFモデルが最先端の大語彙3Dオブジェクト生成性能を達成することを確実に実証している。
- 参考スコア(独自算出の注目度): 57.076986347047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating diverse and high-quality 3D assets with an automatic generative
model is highly desirable. Despite extensive efforts on 3D generation, most
existing works focus on the generation of a single category or a few
categories. In this paper, we introduce a diffusion-based feed-forward
framework for synthesizing massive categories of real-world 3D objects with a
single generative model. Notably, there are three major challenges for this
large-vocabulary 3D generation: a) the need for expressive yet efficient 3D
representation; b) large diversity in geometry and texture across categories;
c) complexity in the appearances of real-world objects. To this end, we propose
a novel triplane-based 3D-aware Diffusion model with TransFormer, DiffTF, for
handling challenges via three aspects. 1) Considering efficiency and
robustness, we adopt a revised triplane representation and improve the fitting
speed and accuracy. 2) To handle the drastic variations in geometry and
texture, we regard the features of all 3D objects as a combination of
generalized 3D knowledge and specialized 3D features. To extract generalized 3D
knowledge from diverse categories, we propose a novel 3D-aware transformer with
shared cross-plane attention. It learns the cross-plane relations across
different planes and aggregates the generalized 3D knowledge with specialized
3D features. 3) In addition, we devise the 3D-aware encoder/decoder to enhance
the generalized 3D knowledge in the encoded triplanes for handling categories
with complex appearances. Extensive experiments on ShapeNet and OmniObject3D
(over 200 diverse real-world categories) convincingly demonstrate that a single
DiffTF model achieves state-of-the-art large-vocabulary 3D object generation
performance with large diversity, rich semantics, and high quality.
- Abstract(参考訳): 自動生成モデルによる多種多様な高品質な3Dアセットの作成が望ましい。
3d生成への多大な努力にもかかわらず、既存の作品の多くは単一のカテゴリやいくつかのカテゴリの生成に焦点を当てている。
本稿では,実世界の3dオブジェクトの膨大なカテゴリを単一の生成モデルで合成するための拡散型フィードフォワードフレームワークを提案する。
特に、この大語彙の3D世代には3つの大きな課題がある。
a) 表現的かつ効率的な3d表現の必要性
b) 分類における幾何学及びテクスチャの大きな多様性
c) 現実世界のオブジェクトの出現の複雑さ。
そこで,本稿では,トランスフォーマー difftf を用いた三面体に基づく3次元拡散モデルを提案する。
1) 効率とロバスト性を考慮して, 修正三平面表現を採用し, 適合速度と精度を向上させる。
2) 形状やテクスチャの劇的な変化に対処するため, 汎用的な3D知識と専門的な3D特徴を組み合わせた3Dオブジェクトの特徴を考察する。
多様なカテゴリから一般化した3d知識を抽出するため,多面的注意を共有できる新しい3d認識トランスを提案する。
異なる平面にまたがる平面間の関係を学習し、特殊な3D特徴を持つ一般化された3D知識を集約する。
3)3次元認識型エンコーダ/デコーダを考案し,複雑な外観を持つカテゴリを扱うための符号化三葉機における一般化された3次元知識を強化する。
ShapeNetとOmniObject3D(200以上の多様な実世界のカテゴリ)の広範囲にわたる実験は、単一のDiffTFモデルが、大きな多様性、豊富なセマンティクス、高品質で最先端の3Dオブジェクト生成性能を達成することを説得力強く証明している。
関連論文リスト
- 3D-Adapter: Geometry-Consistent Multi-View Diffusion for High-Quality 3D Generation [45.218605449572586]
3D-Adapterは、3D幾何学的認識を事前訓練された画像拡散モデルに注入するために設計されたプラグインモジュールである。
Instant3DやZero123++のようなテキスト・ツー・マルチビューモデルの幾何学的品質を大幅に向上させることを示す。
また,テキスト・ツー・3D,画像・ツー・3D,テキスト・トゥ・テクスチャ,テキスト・トゥ・アバタータスクにおいて,高品質な結果を示すことで,3D-Adapterの幅広い応用可能性を示す。
論文 参考訳(メタデータ) (2024-10-24T17:59:30Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation [53.20147419879056]
拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。
TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。
ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
論文 参考訳(メタデータ) (2024-05-13T17:59:51Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - Pushing the Limits of 3D Shape Generation at Scale [65.24420181727615]
我々は、前例のない次元に拡大することで、3次元形状生成において画期的なブレークスルーを示す。
現在までに最大の3次元形状生成モデルとしてArgus-3Dが確立されている。
論文 参考訳(メタデータ) (2023-06-20T13:01:19Z) - OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic
Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。
190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。
それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文 参考訳(メタデータ) (2023-01-18T18:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。