論文の概要: UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2506.09952v1
- Date: Wed, 11 Jun 2025 17:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.164294
- Title: UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting
- Title(参考訳): UniPre3D: クロスモーダルガウススプレイティングによる3Dポイントクラウドモデルの統一事前学習
- Authors: Ziyi Wang, Yanran Zhang, Jie Zhou, Jiwen Lu,
- Abstract要約: 既存の事前学習方法は、オブジェクトレベルとシーンレベルの両方の点群に対して等しく有効である。
UniPre3Dは,任意のスケールの点群やアーキテクチャの3Dモデルに対してシームレスに適用可能な,最初の統合事前学習手法である。
- 参考スコア(独自算出の注目度): 64.31900521467362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scale diversity of point cloud data presents significant challenges in developing unified representation learning techniques for 3D vision. Currently, there are few unified 3D models, and no existing pre-training method is equally effective for both object- and scene-level point clouds. In this paper, we introduce UniPre3D, the first unified pre-training method that can be seamlessly applied to point clouds of any scale and 3D models of any architecture. Our approach predicts Gaussian primitives as the pre-training task and employs differentiable Gaussian splatting to render images, enabling precise pixel-level supervision and end-to-end optimization. To further regulate the complexity of the pre-training task and direct the model's focus toward geometric structures, we integrate 2D features from pre-trained image models to incorporate well-established texture knowledge. We validate the universal effectiveness of our proposed method through extensive experiments across a variety of object- and scene-level tasks, using diverse point cloud models as backbones. Code is available at https://github.com/wangzy22/UniPre3D.
- Abstract(参考訳): ポイントクラウドデータのスケールの多様性は、3Dビジョンのための統一表現学習技術を開発する上で大きな課題となる。
現在、統一された3Dモデルはほとんどなく、既存の事前学習方法は、オブジェクトレベルとシーンレベルの両方の点群に対して等しく有効である。
本稿では,任意のスケールの点群と,任意のアーキテクチャの3次元モデルに対してシームレスに適用可能な,最初の統合事前学習手法であるUniPre3Dを紹介する。
提案手法は,ガウスプリミティブを事前学習タスクとして予測し,画像のレンダリングにガウススプラッティングを用いて,正確な画素レベルの監視とエンドツーエンドの最適化を可能にする。
さらに,事前学習作業の複雑さを抑え,幾何学的構造に焦点をあてるために,事前学習された画像モデルから2次元特徴を統合し,良好なテクスチャ知識を取り入れる。
提案手法の汎用的有効性は,多様なポイントクラウドモデルをバックボーンとして,様々なオブジェクトレベルおよびシーンレベルのタスクにわたる広範な実験を通じて検証する。
コードはhttps://github.com/wangzy22/UniPre3Dで入手できる。
関連論文リスト
- PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。
3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文 参考訳(メタデータ) (2023-07-27T16:07:03Z) - P2P: Tuning Pre-trained Image Models for Point Cloud Analysis with
Point-to-Pixel Prompting [94.11915008006483]
本稿では,ポイントクラウド解析のための新しいポイント・ツー・Pixelを提案する。
ScanObjectNNの最も難しい設定では,89.3%の精度が得られる。
また,本フレームワークは,ModelNet分類とShapeNet Part Codeで非常に競争力のある性能を示す。
論文 参考訳(メタデータ) (2022-08-04T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。