論文の概要: TopoDiT-3D: Topology-Aware Diffusion Transformer with Bottleneck Structure for 3D Point Cloud Generation
- arxiv url: http://arxiv.org/abs/2505.09140v1
- Date: Wed, 14 May 2025 04:48:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.37849
- Title: TopoDiT-3D: Topology-Aware Diffusion Transformer with Bottleneck Structure for 3D Point Cloud Generation
- Title(参考訳): TopoDiT-3D:Topology-Aware Diffusion Transformer with Bottleneck Structure for 3D Point Cloud Generation
- Authors: Zechao Guan, Feng Yan, Shuai Du, Lin Ma, Qingshan Liu,
- Abstract要約: TopoDiT-3Dは3Dポイントクラウド生成のためのボトルネック構造を持つトポロジー対応拡散変換器である。
TopoDiT-3Dは、視覚的品質、多様性、訓練効率において最先端のモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 16.55867442584926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Diffusion Transformer (DiT) models have significantly improved 3D point cloud generation. However, existing methods primarily focus on local feature extraction while overlooking global topological information, such as voids, which are crucial for maintaining shape consistency and capturing complex geometries. To address this limitation, we propose TopoDiT-3D, a Topology-Aware Diffusion Transformer with a bottleneck structure for 3D point cloud generation. Specifically, we design the bottleneck structure utilizing Perceiver Resampler, which not only offers a mode to integrate topological information extracted through persistent homology into feature learning, but also adaptively filters out redundant local features to improve training efficiency. Experimental results demonstrate that TopoDiT-3D outperforms state-of-the-art models in visual quality, diversity, and training efficiency. Furthermore, TopoDiT-3D demonstrates the importance of rich topological information for 3D point cloud generation and its synergy with conventional local feature learning. Videos and code are available at https://github.com/Zechao-Guan/TopoDiT-3D.
- Abstract(参考訳): 拡散変圧器(DiT)モデルの最近の進歩は、3次元点雲の生成を大幅に改善した。
しかし, 従来の手法では, 形状の整合性を維持し, 複雑な地形を捉えるのに不可欠であるヴォイドなどのグローバルな位相情報を見渡す一方で, 局所的特徴抽出に重点を置いている。
この制限に対処するために,3Dポイントクラウド生成のためのボトルネック構造を持つトポロジー対応拡散変換器であるTopoDiT-3Dを提案する。
具体的には、Perceiver Resamplerを用いたボトルネック構造を設計し、永続的ホモロジーから抽出したトポロジ情報を特徴学習に統合するだけでなく、冗長な局所的特徴を除去して訓練効率を向上させる。
TopoDiT-3Dは、視覚的品質、多様性、訓練効率において最先端のモデルよりも優れていた。
さらに、TopoDiT-3Dは、3Dポイントクラウド生成におけるリッチなトポロジカル情報の重要性と、従来の局所的特徴学習との相乗効果を示す。
ビデオとコードはhttps://github.com/Zechao-Guan/TopoDiT-3Dで公開されている。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation [53.20147419879056]
拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。
TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。
ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
論文 参考訳(メタデータ) (2024-05-13T17:59:51Z) - Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation [49.22974835756199]
本稿では,3次元形状生成のための新しい拡散変換器,すなわちDiT-3Dを提案する。
既存のU-Netアプローチと比較して、私たちのDiT-3Dはモデルサイズがよりスケーラブルで、より高品質な世代を生み出す。
ShapeNetデータセットの実験結果から,提案したDiT-3Dが最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2023-07-04T17:15:46Z) - 3D Object Detection with Pointformer [29.935891419574602]
本稿では,3dポイントクラウドのためのトランスフォーマーバックボーンであるpointformerを提案する。
ローカルトランスフォーマーモジュールは、オブジェクトレベルでコンテキスト依存の領域特徴を学習するローカル領域のポイント間の相互作用をモデル化するために使用される。
Global Transformerは、シーンレベルでコンテキスト対応の表現を学ぶように設計されている。
論文 参考訳(メタデータ) (2020-12-21T15:12:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。