論文の概要: PRED: Pre-training via Semantic Rendering on LiDAR Point Clouds
- arxiv url: http://arxiv.org/abs/2311.04501v1
- Date: Wed, 8 Nov 2023 07:26:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 16:53:06.599156
- Title: PRED: Pre-training via Semantic Rendering on LiDAR Point Clouds
- Title(参考訳): PreD: LiDARポイントクラウド上でのセマンティックレンダリングによる事前トレーニング
- Authors: Hao Yang, Haiyang Wang, Di Dai, Liwei Wang
- Abstract要約: 本稿では,屋外点雲のための画像支援事前学習フレームワークPreDを提案する。
我々のフレームワークの主な構成要素は、Birds-Eye-View (BEV) 機能マップ条件付きセマンティックレンダリングである。
我々は、高マスキング比のポイントワイドマスクを組み込むことにより、モデルの性能をさらに向上させる。
- 参考スコア(独自算出の注目度): 18.840000859663153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training is crucial in 3D-related fields such as autonomous driving where
point cloud annotation is costly and challenging. Many recent studies on point
cloud pre-training, however, have overlooked the issue of incompleteness, where
only a fraction of the points are captured by LiDAR, leading to ambiguity
during the training phase. On the other hand, images offer more comprehensive
information and richer semantics that can bolster point cloud encoders in
addressing the incompleteness issue inherent in point clouds. Yet,
incorporating images into point cloud pre-training presents its own challenges
due to occlusions, potentially causing misalignments between points and pixels.
In this work, we propose PRED, a novel image-assisted pre-training framework
for outdoor point clouds in an occlusion-aware manner. The main ingredient of
our framework is a Birds-Eye-View (BEV) feature map conditioned semantic
rendering, leveraging the semantics of images for supervision through neural
rendering. We further enhance our model's performance by incorporating
point-wise masking with a high mask ratio (95%). Extensive experiments
demonstrate PRED's superiority over prior point cloud pre-training methods,
providing significant improvements on various large-scale datasets for 3D
perception tasks. Codes will be available at https://github.com/PRED4pc/PRED.
- Abstract(参考訳): 事前トレーニングは、ポイントクラウドアノテーションが高価かつ困難である自動運転のような3d関連分野において重要である。
しかし、ポイントクラウドの事前学習に関する最近の多くの研究は、不完全性の問題を見落としており、その点のほんの一部がlidarによって捕捉され、訓練段階で曖昧さに繋がる。
一方、画像はより包括的な情報とよりリッチなセマンティクスを提供し、ポイントクラウド固有の不完全性問題に対処するためにポイントクラウドエンコーダを強化できる。
しかし、イメージをポイントクラウドに組み込むことは、オクルージョンによる独自の課題を示し、ポイントとピクセルのミスアライメントを引き起こす可能性がある。
本研究では,屋外の点群を対象とした画像支援型事前学習フレームワークPreDを提案する。
我々のフレームワークの主な構成要素は、ニューラルネットワークによる画像のセマンティックスを活用する、Birds-Eye-View (BEV) 機能マップの条件付きセマンティックレンダリングである。
我々は,高マスク比(95%)のポイントワイズマスキングを組み込むことにより,モデルの性能をさらに向上させる。
大規模な実験では、PreDが事前学習方法よりも優れていることが示され、3D知覚タスクのための大規模なデータセットが大幅に改善された。
コードはhttps://github.com/PRED4pc/PRED.comで入手できる。
関連論文リスト
- Adapt PointFormer: 3D Point Cloud Analysis via Adapting 2D Visual Transformers [38.08724410736292]
本稿では,3次元ポイントクラウド解析の課題を達成するために,2次元事前知識を持つ事前学習モデルの活用を試みる。
本稿では,適応ポイントフォーマー (APF) を提案する。
論文 参考訳(メタデータ) (2024-07-18T06:32:45Z) - ESP-Zero: Unsupervised enhancement of zero-shot classification for Extremely Sparse Point cloud [7.066196862701362]
極端に疎い点群に対する点群エンコーダを強化するための教師なしモデル適応手法を提案する。
本稿では,学習可能なトークンとアテンションブロックを追加して,事前学習した自己注意層を拡張する,新しいファセットクロスアテンション層を提案する。
また,無関係なテキスト埋め込みから,修正された特徴を引き離すための補完的な学習ベースの自己蒸留スキーマを提案する。
論文 参考訳(メタデータ) (2024-04-30T15:42:45Z) - HVDistill: Transferring Knowledge from Images to Point Clouds via Unsupervised Hybrid-View Distillation [106.09886920774002]
本稿では,HVDistillと呼ばれるハイブリッドビューに基づく知識蒸留フレームワークを提案する。
提案手法は,スクラッチからトレーニングしたベースラインに対して一貫した改善を実現し,既存のスキームを大幅に上回っている。
論文 参考訳(メタデータ) (2024-03-18T14:18:08Z) - Ponder: Point Cloud Pre-training via Neural Rendering [93.34522605321514]
本稿では,識別可能なニューラルエンコーダによる点雲表現の自己教師型学習手法を提案する。
学習したポイントクラウドは、3D検出やセグメンテーションといったハイレベルなレンダリングタスクだけでなく、3D再構成や画像レンダリングといった低レベルなタスクを含む、さまざまなダウンストリームタスクに簡単に統合できる。
論文 参考訳(メタデータ) (2022-12-31T08:58:39Z) - EPCL: Frozen CLIP Transformer is An Efficient Point Cloud Encoder [60.52613206271329]
本稿では,冷凍CLIP変換器を用いて高品質のクラウドモデルをトレーニングするための textbfEfficient textbfPoint textbfCloud textbfLearning (EPCL) を提案する。
我々のEPCLは、2D-3Dデータをペア化せずに画像の特徴と点雲の特徴を意味的に整合させることで、2Dと3Dのモダリティを接続する。
論文 参考訳(メタデータ) (2022-12-08T06:27:11Z) - Leveraging Single-View Images for Unsupervised 3D Point Cloud Completion [53.93172686610741]
Cross-PCCは3次元完全点雲を必要としない教師なしの点雲補完法である。
2次元画像の相補的な情報を活用するために,単視点RGB画像を用いて2次元特徴を抽出する。
我々の手法は、いくつかの教師付き手法に匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2022-12-01T15:11:21Z) - P2P: Tuning Pre-trained Image Models for Point Cloud Analysis with
Point-to-Pixel Prompting [94.11915008006483]
本稿では,ポイントクラウド解析のための新しいポイント・ツー・Pixelを提案する。
ScanObjectNNの最も難しい設定では,89.3%の精度が得られる。
また,本フレームワークは,ModelNet分類とShapeNet Part Codeで非常に競争力のある性能を示す。
論文 参考訳(メタデータ) (2022-08-04T17:59:03Z) - PointAttN: You Only Need Attention for Point Cloud Completion [89.88766317412052]
ポイント・クラウド・コンプリート(Point cloud completion)とは、部分的な3次元ポイント・クラウドから3次元の形状を完成させることである。
そこで我々は,kNNを除去するために,ポイントクラウドをポイント単位に処理する新しいニューラルネットワークを提案する。
提案するフレームワークであるPointAttNはシンプルで簡潔で効果的であり、3次元形状の構造情報を正確に捉えることができる。
論文 参考訳(メタデータ) (2022-03-16T09:20:01Z) - Point Cloud Pre-training by Mixing and Disentangling [35.18101910728478]
Mixing and Disentangling (MD)は、ポイントクラウド事前トレーニングのための自己教師付き学習アプローチである。
我々は,エンコーダ+我々の(MD)が,スクラッチから訓練したエンコーダを著しく上回り,迅速に収束することを示す。
この自己教師型学習によるポイントクラウドの試みが、大規模ラベル付きデータへの深い学習モデル依存を減らす道を開くことを願っている。
論文 参考訳(メタデータ) (2021-09-01T15:52:18Z) - SSPU-Net: Self-Supervised Point Cloud Upsampling via Differentiable
Rendering [21.563862632172363]
地中真理を使わずに高密度の点雲を生成するための自己教師付き点雲アップサンプリングネットワーク(SSPU-Net)を提案する。
これを実現するために,入力スパース点雲と高密度点雲との整合性を利用して画像の形状と描画を行う。
論文 参考訳(メタデータ) (2021-08-01T13:26:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。