論文の概要: Point Cloud Unsupervised Pre-training via 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2411.18667v1
- Date: Wed, 27 Nov 2024 16:11:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:30.809118
- Title: Point Cloud Unsupervised Pre-training via 3D Gaussian Splatting
- Title(参考訳): 3次元ガウススプラッティングによる点雲教師なし事前訓練
- Authors: Hao Liu, Minglin Chen, Yanni Ma, Haihong Xiao, Ying He,
- Abstract要約: 我々は,ポイントクラウド表現を学習するために,GS$3$という効率的なフレームワークを提案する。
具体的には、入力されたRGB-D画像を3次元空間にバックプロジェクションし、ポイントクラウドエンコーダを用いてポイントワイズ機能を抽出する。
- 参考スコア(独自算出の注目度): 7.070581940661794
- License:
- Abstract: Pre-training on large-scale unlabeled datasets contribute to the model achieving powerful performance on 3D vision tasks, especially when annotations are limited. However, existing rendering-based self-supervised frameworks are computationally demanding and memory-intensive during pre-training due to the inherent nature of volume rendering. In this paper, we propose an efficient framework named GS$^3$ to learn point cloud representation, which seamlessly integrates fast 3D Gaussian Splatting into the rendering-based framework. The core idea behind our framework is to pre-train the point cloud encoder by comparing rendered RGB images with real RGB images, as only Gaussian points enriched with learned rich geometric and appearance information can produce high-quality renderings. Specifically, we back-project the input RGB-D images into 3D space and use a point cloud encoder to extract point-wise features. Then, we predict 3D Gaussian points of the scene from the learned point cloud features and uses a tile-based rasterizer for image rendering. Finally, the pre-trained point cloud encoder can be fine-tuned to adapt to various downstream 3D tasks, including high-level perception tasks such as 3D segmentation and detection, as well as low-level tasks such as 3D scene reconstruction. Extensive experiments on downstream tasks demonstrate the strong transferability of the pre-trained point cloud encoder and the effectiveness of our self-supervised learning framework. In addition, our GS$^3$ framework is highly efficient, achieving approximately 9$\times$ pre-training speedup and less than 0.25$\times$ memory cost compared to the previous rendering-based framework Ponder.
- Abstract(参考訳): 大規模未ラベルデータセットの事前トレーニングは、3Dビジョンタスク、特にアノテーションが限定された場合に、強力なパフォーマンスを達成するモデルに寄与する。
しかし、既存のレンダリングベースのセルフ教師付きフレームワークは、ボリュームレンダリングの本質的な性質のため、事前トレーニング中に計算的に要求され、メモリ集約化されている。
本稿では,高速な3次元ガウススプラッティングをレンダリングベースフレームワークにシームレスに統合した,ポイントクラウド表現学習のためのGS$^3$という効率的なフレームワークを提案する。
我々のフレームワークの中核となる考え方は、レンダリングされたRGBイメージと実際のRGBイメージを比較して、ポイントクラウドエンコーダを事前訓練することである。
具体的には、入力されたRGB-D画像を3次元空間にバックプロジェクションし、ポイントクラウドエンコーダを用いてポイントワイズ機能を抽出する。
そして、学習点雲の特徴からシーンの3Dガウス点を予測し、タイルベースのラスタライザを用いて画像レンダリングを行う。
最後に、訓練済みのクラウドエンコーダを微調整することで、3Dセグメンテーションや検出などの高レベルな認識タスクや、3Dシーン再構成のような低レベルなタスクなど、さまざまな下流3Dタスクに適応することができる。
下流タスクに関する大規模な実験は、事前訓練されたポイントクラウドエンコーダの強い転送可能性と、自己教師付き学習フレームワークの有効性を示す。
さらに、GS$^3$フレームワークは非常に効率的で、約9$\times$事前トレーニングのスピードアップと0.25$\times$メモリコストを以前のレンダリングベースのフレームワークであるPenderと比べて達成しています。
関連論文リスト
- SimC3D: A Simple Contrastive 3D Pretraining Framework Using RGB Images [42.69443644770913]
SimC3Dは、純粋なRGB画像データからバックボーンを事前学習するための3Dコントラスト学習フレームワークである。
従来のマルチモーダルフレームワークは、追加の2Dバックボーンを利用することで、2Dプリトレーニングを容易にする。
SimC3Dは2Dの位置埋め込みを強い対照的な目的として直接利用し、2Dバックボーンの必要性を排除している。
論文 参考訳(メタデータ) (2024-12-06T18:59:04Z) - PFGS: High Fidelity Point Cloud Rendering via Feature Splatting [5.866747029417274]
スパースポイントから高品質な画像をレンダリングする新しいフレームワークを提案する。
この手法はまず3次元ガウス格子と点雲のレンダリングを橋渡しする。
異なるベンチマーク実験により、レンダリング品質と主成分の必要性の観点から、我々の手法の優位性を示す。
論文 参考訳(メタデータ) (2024-07-04T11:42:54Z) - PUP 3D-GS: Principled Uncertainty Pruning for 3D Gaussian Splatting [59.277480452459315]
本研究では,視覚的忠実度と前景の細部を高い圧縮比で保持する原理的感度プルーニングスコアを提案する。
また,トレーニングパイプラインを変更することなく,事前訓練した任意の3D-GSモデルに適用可能な複数ラウンドプルーファインパイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-14T17:53:55Z) - Compact 3D Gaussian Representation for Radiance Field [14.729871192785696]
本研究では,3次元ガウス点数を削減するための学習可能なマスク戦略を提案する。
また、格子型ニューラルネットワークを用いて、ビュー依存色をコンパクトかつ効果的に表現することを提案する。
我々の研究は、3Dシーン表現のための包括的なフレームワークを提供し、ハイパフォーマンス、高速トレーニング、コンパクト性、リアルタイムレンダリングを実現しています。
論文 参考訳(メタデータ) (2023-11-22T20:31:16Z) - PRED: Pre-training via Semantic Rendering on LiDAR Point Clouds [18.840000859663153]
本稿では,屋外点雲のための画像支援事前学習フレームワークPreDを提案する。
我々のフレームワークの主な構成要素は、Birds-Eye-View (BEV) 機能マップ条件付きセマンティックレンダリングである。
我々は、高マスキング比のポイントワイドマスクを組み込むことにより、モデルの性能をさらに向上させる。
論文 参考訳(メタデータ) (2023-11-08T07:26:09Z) - TriVol: Point Cloud Rendering via Triple Volumes [57.305748806545026]
我々は,高密度かつ軽量な3D表現であるTriVolをNeRFと組み合わせて,点雲から写実的な画像を描画する。
我々のフレームワークは、微調整なしでシーン/オブジェクトのカテゴリを描画できる優れた一般化能力を持っている。
論文 参考訳(メタデータ) (2023-03-29T06:34:12Z) - Ponder: Point Cloud Pre-training via Neural Rendering [93.34522605321514]
本稿では,識別可能なニューラルエンコーダによる点雲表現の自己教師型学習手法を提案する。
学習したポイントクラウドは、3D検出やセグメンテーションといったハイレベルなレンダリングタスクだけでなく、3D再構成や画像レンダリングといった低レベルなタスクを含む、さまざまなダウンストリームタスクに簡単に統合できる。
論文 参考訳(メタデータ) (2022-12-31T08:58:39Z) - EPCL: Frozen CLIP Transformer is An Efficient Point Cloud Encoder [60.52613206271329]
本稿では,冷凍CLIP変換器を用いて高品質のクラウドモデルをトレーニングするための textbfEfficient textbfPoint textbfCloud textbfLearning (EPCL) を提案する。
我々のEPCLは、2D-3Dデータをペア化せずに画像の特徴と点雲の特徴を意味的に整合させることで、2Dと3Dのモダリティを接続する。
論文 参考訳(メタデータ) (2022-12-08T06:27:11Z) - P2P: Tuning Pre-trained Image Models for Point Cloud Analysis with
Point-to-Pixel Prompting [94.11915008006483]
本稿では,ポイントクラウド解析のための新しいポイント・ツー・Pixelを提案する。
ScanObjectNNの最も難しい設定では,89.3%の精度が得られる。
また,本フレームワークは,ModelNet分類とShapeNet Part Codeで非常に競争力のある性能を示す。
論文 参考訳(メタデータ) (2022-08-04T17:59:03Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。