論文の概要: PMT-MAE: Dual-Branch Self-Supervised Learning with Distillation for Efficient Point Cloud Classification
- arxiv url: http://arxiv.org/abs/2409.02007v2
- Date: Mon, 16 Sep 2024 16:51:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 22:38:20.266247
- Title: PMT-MAE: Dual-Branch Self-Supervised Learning with Distillation for Efficient Point Cloud Classification
- Title(参考訳): PMT-MAE: 効率的な点群分類のための蒸留による2分岐自己教師付き学習
- Authors: Qiang Zheng, Chao Zhang, Jian Sun,
- Abstract要約: 本稿では,ポイントクラウド分類のための自己教師型学習フレームワークであるPMT-MAEを紹介する。
PMT-MAEは、Transformerとコンポーネントを統合し、リッチな機能をキャプチャするデュアルブランチアーキテクチャを備えている。
PMT-MAEはベースラインのPoint-MAE (93.2%) と教師のPoint-M2AE (93.4%) を上回り、非ネイティブな3Dポイントクラウド表現を学習する能力を示している。
- 参考スコア(独自算出の注目度): 46.266960248570086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in self-supervised learning are essential for enhancing feature extraction and understanding in point cloud processing. This paper introduces PMT-MAE (Point MLP-Transformer Masked Autoencoder), a novel self-supervised learning framework for point cloud classification. PMT-MAE features a dual-branch architecture that integrates Transformer and MLP components to capture rich features. The Transformer branch leverages global self-attention for intricate feature interactions, while the parallel MLP branch processes tokens through shared fully connected layers, offering a complementary feature transformation pathway. A fusion mechanism then combines these features, enhancing the model's capacity to learn comprehensive 3D representations. Guided by the sophisticated teacher model Point-M2AE, PMT-MAE employs a distillation strategy that includes feature distillation during pre-training and logit distillation during fine-tuning, ensuring effective knowledge transfer. On the ModelNet40 classification task, achieving an accuracy of 93.6\% without employing voting strategy, PMT-MAE surpasses the baseline Point-MAE (93.2\%) and the teacher Point-M2AE (93.4\%), underscoring its ability to learn discriminative 3D point cloud representations. Additionally, this framework demonstrates high efficiency, requiring only 40 epochs for both pre-training and fine-tuning. PMT-MAE's effectiveness and efficiency render it well-suited for scenarios with limited computational resources, positioning it as a promising solution for practical point cloud analysis.
- Abstract(参考訳): 自己教師型学習の進歩は、ポイントクラウド処理における特徴抽出と理解の強化に不可欠である。
本稿では,PMT-MAE(Point MLP-Transformer Masked Autoencoder)を紹介する。
PMT-MAEは、TransformerとMPPコンポーネントを統合し、リッチな機能をキャプチャするデュアルブランチアーキテクチャを備えている。
Transformerブランチは複雑な機能インタラクションにグローバルな自己アテンションを活用し、並列MLPブランチは共有された完全に接続されたレイヤを通じてトークンを処理し、補完的な機能変換パスを提供する。
融合機構はこれらの特徴を組み合わせることで、包括的な3D表現を学ぶためのモデルの能力を高める。
PMT-MAEは、高度な教師モデルであるPoint-M2AEによって指導され、事前訓練中の特徴蒸留と微調整時のロジット蒸留を含む蒸留戦略を採用し、効果的な知識伝達を保証する。
ModelNet40の分類タスクでは、投票戦略を使わずに93.6\%の精度を達成するため、PMT-MAEはベースラインのPoint-MAE (93.2\%) と教師のPoint-M2AE (93.4\%) を超越し、差別的な3Dポイントクラウド表現を学習する能力を示している。
さらに、このフレームワークは高い効率を示し、事前トレーニングと微調整の両方に40のエポックしか必要としない。
PMT-MAEの有効性と効率性は、計算資源が限られているシナリオに適しており、実用的なポイントクラウド分析のための有望なソリューションとして位置づけられている。
関連論文リスト
- Unleashing the Potential of Mamba: Boosting a LiDAR 3D Sparse Detector by Using Cross-Model Knowledge Distillation [22.653014803666668]
FASDと呼ばれる高速LiDAR3Dオブジェクト検出フレームワークを提案する。
高速シーケンスモデリングのための変換器のキャパシティをFLOPの低いMambaモデルに蒸留し,知識伝達による精度の向上を実現することを目的とする。
我々は,データセットとnuScenesのフレームワークを評価し,リソース消費の4倍の削減と,現在のSoTA手法よりも1-2%の性能向上を実現した。
論文 参考訳(メタデータ) (2024-09-17T09:30:43Z) - PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture [46.266960248570086]
本研究は,効率的な特徴集約のための複雑局所的注意機構を導入することで,自己注意機構の二次的複雑さに取り組む。
また,各チャネルの注目重量分布を適応的に調整するパラメータフリーチャネル温度適応機構を導入する。
我々は,PointMTが性能と精度の最適なバランスを維持しつつ,最先端手法に匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-10T10:16:03Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - CLR-GAM: Contrastive Point Cloud Learning with Guided Augmentation and
Feature Mapping [12.679625717350113]
本稿では、効率的な動的探索戦略のためのガイド拡張(GA)を備えた対照的な学習ベースのフレームワークであるCLR-GAMを提案する。
提案手法がシミュレーションおよび実世界の3Dポイントクラウドデータセット上で最先端のパフォーマンスを実現することを実証的に実証した。
論文 参考訳(メタデータ) (2023-02-28T04:38:52Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z) - Energy-Efficient and Federated Meta-Learning via Projected Stochastic
Gradient Ascent [79.58680275615752]
エネルギー効率のよいメタラーニングフレームワークを提案する。
各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。
論文 参考訳(メタデータ) (2021-05-31T08:15:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。