論文の概要: GeoMask3D: Geometrically Informed Mask Selection for Self-Supervised Point Cloud Learning in 3D
- arxiv url: http://arxiv.org/abs/2405.12419v1
- Date: Mon, 20 May 2024 23:53:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 14:47:55.546964
- Title: GeoMask3D: Geometrically Informed Mask Selection for Self-Supervised Point Cloud Learning in 3D
- Title(参考訳): GeoMask3D:3Dにおける自己教師付きポイントクラウド学習のための幾何学的インフォームドマスク選択
- Authors: Ali Bahri, Moslem Yazdanpanah, Mehrdad Noori, Milad Cheraghalikhani, Gustavo Adolfo Vargas Hakim, David Osowiechi, Farzad Beizaee, Ismail Ben Ayed, Christian Desrosiers,
- Abstract要約: ポイントクラウドのための自己教師型学習に先駆的なアプローチを導入する。
我々は、Masked Autosの効率を高めるためにGeoMask3D(GM3D)と呼ばれる幾何学的に情報を得たマスク選択戦略を採用した。
- 参考スコア(独自算出の注目度): 18.33878596057853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a pioneering approach to self-supervised learning for point clouds, employing a geometrically informed mask selection strategy called GeoMask3D (GM3D) to boost the efficiency of Masked Auto Encoders (MAE). Unlike the conventional method of random masking, our technique utilizes a teacher-student model to focus on intricate areas within the data, guiding the model's focus toward regions with higher geometric complexity. This strategy is grounded in the hypothesis that concentrating on harder patches yields a more robust feature representation, as evidenced by the improved performance on downstream tasks. Our method also presents a complete-to-partial feature-level knowledge distillation technique designed to guide the prediction of geometric complexity utilizing a comprehensive context from feature-level information. Extensive experiments confirm our method's superiority over State-Of-The-Art (SOTA) baselines, demonstrating marked improvements in classification, and few-shot tasks.
- Abstract(参考訳): 我々は,Masked Auto Encoders (MAE) の効率を高めるために,GeoMask3D (GM3D) と呼ばれる幾何学的に情報を得たマスク選択戦略を用いて,点雲に対する自己教師型学習の先駆的アプローチを導入する。
従来のランダムマスキング法とは異なり,本手法では教師学生モデルを用いて,データ内の複雑な領域に焦点をあてる。
この戦略は、より厳しいパッチに集中することでより堅牢な特徴表現が得られるという仮説に基づいている。
また,特徴量情報から包括的コンテキストを用いた幾何学的複雑性の予測を導くために,完全-部分的特徴量レベルの知識蒸留手法を提案する。
大規模実験により,本手法がSOTA(State-Of-The-Art)ベースラインよりも優れていることが確認された。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Masked Generative Extractor for Synergistic Representation and 3D Generation of Point Clouds [6.69660410213287]
我々は,3次元表現学習と生成学習を深く統合する利点を探るため,Point-MGEと呼ばれる革新的なフレームワークを提案する。
形状分類において、Point-MGEはModelNet40データセットで94.2%(+1.0%)、ScanObjectNNデータセットで92.9%(+5.5%)の精度を達成した。
また,非条件条件と条件条件条件条件の両方で,Point-MGEが高品質な3D形状を生成可能であることを確認した。
論文 参考訳(メタデータ) (2024-06-25T07:57:03Z) - Towards Compact 3D Representations via Point Feature Enhancement Masked
Autoencoders [52.66195794216989]
本稿では,コンパクトな3D表現を学習するために,ポイント特徴強調マスク付きオートエンコーダ(Point-FEMAE)を提案する。
Point-FEMAEはグローバルブランチとローカルブランチで構成され、潜在意味的特徴をキャプチャする。
本手法は, クロスモーダル方式と比較して, 事前学習効率を著しく向上させる。
論文 参考訳(メタデータ) (2023-12-17T14:17:05Z) - Self-supervised Pre-training with Masked Shape Prediction for 3D Scene
Understanding [106.0876425365599]
Masked Shape Prediction (MSP)は、3Dシーンでマスクされた信号モデリングを行うための新しいフレームワークである。
MSPは3Dセマンティックキュー、すなわち幾何学的形状をマスクされた点の予測ターゲットとして使用する。
論文 参考訳(メタデータ) (2023-05-08T20:09:19Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - Unsupervised Domain Adaptation for Monocular 3D Object Detection via
Self-Training [57.25828870799331]
我々は、Mono3D上での教師なしドメイン適応のための新しい自己学習フレームワークSTMono3Dを提案する。
対象ドメイン上で適応的な擬似ラベルを生成するための教師学生パラダイムを開発する。
STMono3Dは、評価されたすべてのデータセットで顕著なパフォーマンスを達成し、KITTI 3Dオブジェクト検出データセットの完全な教師付き結果を超えています。
論文 参考訳(メタデータ) (2022-04-25T12:23:07Z) - Unsupervised Learning on 3D Point Clouds by Clustering and Contrasting [11.64827192421785]
教師なし表現学習は、人間の介入なしに機能を自動抽出するための有望な方向である。
本稿では、ポイントワイドおよびグローバルな特徴の学習を行うために、textbfConClu という、一般的な教師なしアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-05T12:54:17Z) - Efficient 3D Deep LiDAR Odometry [16.388259779644553]
PWCLO-Netという名前の効率的な3Dポイント・クラウド・ラーニング・アーキテクチャが最初に提案される。
アーキテクチャ全体は、コストボリュームとマスクの適応的な学習を実現するために、徹底的にエンドツーエンドに最適化されています。
論文 参考訳(メタデータ) (2021-11-03T11:09:49Z) - FG-Net: Fast Large-Scale LiDAR Point CloudsUnderstanding Network
Leveraging CorrelatedFeature Mining and Geometric-Aware Modelling [15.059508985699575]
FG-Netは、Voxelizationなしで大規模ポイントクラウドを理解するための一般的なディープラーニングフレームワークです。
相関型特徴マイニングと変形性畳み込みに基づく幾何認識モデルを用いた深層畳み込みニューラルネットワークを提案する。
我々のアプローチは精度と効率の点で最先端のアプローチを上回っている。
論文 参考訳(メタデータ) (2020-12-17T08:20:09Z) - Attention Model Enhanced Network for Classification of Breast Cancer
Image [54.83246945407568]
AMENはマルチブランチ方式で、画素ワイドアテンションモデルとサブモジュールの分類で定式化される。
微妙な詳細情報に焦点を合わせるため、サンプル画像は、前枝から生成された画素対応の注目マップによって強化される。
3つのベンチマークデータセットで行った実験は、様々なシナリオにおいて提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2020-10-07T08:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。