論文の概要: ESP-Zero: Unsupervised enhancement of zero-shot classification for Extremely Sparse Point cloud
- arxiv url: http://arxiv.org/abs/2404.19639v1
- Date: Tue, 30 Apr 2024 15:42:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 13:46:04.926454
- Title: ESP-Zero: Unsupervised enhancement of zero-shot classification for Extremely Sparse Point cloud
- Title(参考訳): ESP-Zero:極小点雲におけるゼロショット分類の教師なし強化
- Authors: Jiayi Han, Zidi Cao, Weibo Zheng, Xiangguo Zhou, Xiangjian He, Yuanfang Zhang, Daisen Wei,
- Abstract要約: 極端に疎い点群に対する点群エンコーダを強化するための教師なしモデル適応手法を提案する。
本稿では,学習可能なトークンとアテンションブロックを追加して,事前学習した自己注意層を拡張する,新しいファセットクロスアテンション層を提案する。
また,無関係なテキスト埋め込みから,修正された特徴を引き離すための補完的な学習ベースの自己蒸留スキーマを提案する。
- 参考スコア(独自算出の注目度): 7.066196862701362
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In recent years, zero-shot learning has attracted the focus of many researchers, due to its flexibility and generality. Many approaches have been proposed to achieve the zero-shot classification of the point clouds for 3D object understanding, following the schema of CLIP. However, in the real world, the point clouds could be extremely sparse, dramatically limiting the effectiveness of the 3D point cloud encoders, and resulting in the misalignment of point cloud features and text embeddings. To the point cloud encoders to fit the extremely sparse point clouds without re-running the pre-training procedure which could be time-consuming and expensive, in this work, we propose an unsupervised model adaptation approach to enhance the point cloud encoder for the extremely sparse point clouds. We propose a novel fused-cross attention layer that expands the pre-trained self-attention layer with additional learnable tokens and attention blocks, which effectively modifies the point cloud features while maintaining the alignment between point cloud features and text embeddings. We also propose a complementary learning-based self-distillation schema that encourages the modified features to be pulled apart from the irrelevant text embeddings without overfitting the feature space to the observed text embeddings. Extensive experiments demonstrate that the proposed approach effectively increases the zero-shot capability on extremely sparse point clouds, and overwhelms other state-of-the-art model adaptation approaches.
- Abstract(参考訳): 近年、ゼロショット学習は、柔軟性と汎用性から多くの研究者の関心を集めている。
CLIPのスキーマに従って、3次元オブジェクト理解のための点雲のゼロショット分類を実現するために、多くのアプローチが提案されている。
しかし、現実世界では、ポイントクラウドは極めて疎結合であり、3Dポイントクラウドエンコーダの有効性を劇的に制限し、ポイントクラウド機能やテキスト埋め込みの誤調整をもたらす可能性がある。
そこで本研究では,極小点雲に対する点群エンコーダの高度化を目的とした教師なしモデル適応手法を提案する。
本稿では,学習可能なトークンとアテンションブロックを追加して事前学習した自己注意層を拡張し,ポイントクラウド特徴とテキスト埋め込みの整合性を維持しつつ,ポイントクラウド特徴を効果的に修正する,新たなフューズドクロスアテンション層を提案する。
また,修正された特徴を,観察されたテキスト埋め込みにオーバーフィットすることなく,無関係なテキスト埋め込みから切り離すことを推奨する,補完的な学習ベースの自己蒸留スキーマを提案する。
大規模な実験により、提案手法は極端にスパースな点雲のゼロショット能力を効果的に向上し、他の最先端のモデル適応アプローチを圧倒することを示した。
関連論文リスト
- Zero-shot Point Cloud Completion Via 2D Priors [52.72867922938023]
3次元点雲の完成は、部分的に観測された点雲から完全な形状を復元するように設計されている。
そこで本研究では, 観測された点群を対象とするゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T08:02:17Z) - PRED: Pre-training via Semantic Rendering on LiDAR Point Clouds [18.840000859663153]
本稿では,屋外点雲のための画像支援事前学習フレームワークPreDを提案する。
我々のフレームワークの主な構成要素は、Birds-Eye-View (BEV) 機能マップ条件付きセマンティックレンダリングである。
我々は、高マスキング比のポイントワイドマスクを組み込むことにより、モデルの性能をさらに向上させる。
論文 参考訳(メタデータ) (2023-11-08T07:26:09Z) - SDFReg: Learning Signed Distance Functions for Point Cloud Registration [8.465771798353904]
本稿では,不完全な点群に対する新しい点群登録フレームワークを提案する。
我々は、点雲とニューラル暗黙関数の間の登録問題に、点雲間の剛性登録の問題を置き換える。
本手法は, ノイズや不完全性, 点雲の密度変化といった課題に直面した際, 顕著な堅牢性を示す。
論文 参考訳(メタデータ) (2023-04-18T12:14:20Z) - EPCL: Frozen CLIP Transformer is An Efficient Point Cloud Encoder [60.52613206271329]
本稿では,冷凍CLIP変換器を用いて高品質のクラウドモデルをトレーニングするための textbfEfficient textbfPoint textbfCloud textbfLearning (EPCL) を提案する。
我々のEPCLは、2D-3Dデータをペア化せずに画像の特徴と点雲の特徴を意味的に整合させることで、2Dと3Dのモダリティを接続する。
論文 参考訳(メタデータ) (2022-12-08T06:27:11Z) - Data Augmentation-free Unsupervised Learning for 3D Point Cloud
Understanding [61.30276576646909]
ソフトクラスタリング(SoftClu)と呼ばれる,移動可能な点レベルの特徴を学習するための,ポイントクラウドに対する拡張不要な教師なしアプローチを提案する。
我々は,クラスタに対するポイントのアフィリエイトをプロキシとして利用し,擬似ラベル予測タスクを通じて自己学習を可能にする。
論文 参考訳(メタデータ) (2022-10-06T10:18:16Z) - Towards Robust 3D Object Recognition with Dense-to-Sparse Deep Domain
Adaptation [5.763876449960417]
3次元オブジェクト認識は、インテリジェントな自律エージェントにとって不可欠である。
最先端のアプローチの多くは比較的密集した点雲に依存しており、スパース点雲では性能低下が著しく大きい。
教師なしの領域適応は、密度とスパース点の雲間の差を最小限にすることができる。
論文 参考訳(メタデータ) (2022-05-07T13:42:43Z) - Learning a Structured Latent Space for Unsupervised Point Cloud
Completion [48.79411151132766]
部分点雲と完全点雲の両方を符号化する統一的で構造化された潜在空間を学習する新しいフレームワークを提案する。
提案手法は、合成ShapeNetと実世界のKITTI、ScanNet、Matterport3Dデータセットの両方において、最先端の教師なし手法を一貫して上回っている。
論文 参考訳(メタデータ) (2022-03-29T13:58:44Z) - PointAttN: You Only Need Attention for Point Cloud Completion [89.88766317412052]
ポイント・クラウド・コンプリート(Point cloud completion)とは、部分的な3次元ポイント・クラウドから3次元の形状を完成させることである。
そこで我々は,kNNを除去するために,ポイントクラウドをポイント単位に処理する新しいニューラルネットワークを提案する。
提案するフレームワークであるPointAttNはシンプルで簡潔で効果的であり、3次元形状の構造情報を正確に捉えることができる。
論文 参考訳(メタデータ) (2022-03-16T09:20:01Z) - SSPU-Net: Self-Supervised Point Cloud Upsampling via Differentiable
Rendering [21.563862632172363]
地中真理を使わずに高密度の点雲を生成するための自己教師付き点雲アップサンプリングネットワーク(SSPU-Net)を提案する。
これを実現するために,入力スパース点雲と高密度点雲との整合性を利用して画像の形状と描画を行う。
論文 参考訳(メタデータ) (2021-08-01T13:26:01Z) - Pseudo-LiDAR Point Cloud Interpolation Based on 3D Motion Representation
and Spatial Supervision [68.35777836993212]
我々はPseudo-LiDAR点雲ネットワークを提案し、時間的および空間的に高品質な点雲列を生成する。
点雲間のシーンフローを活用することにより,提案ネットワークは3次元空間運動関係のより正確な表現を学習することができる。
論文 参考訳(メタデータ) (2020-06-20T03:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。