論文の概要: GeoMask3D: Geometrically Informed Mask Selection for Self-Supervised Point Cloud Learning in 3D
- arxiv url: http://arxiv.org/abs/2405.12419v1
- Date: Mon, 20 May 2024 23:53:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 14:47:55.546964
- Title: GeoMask3D: Geometrically Informed Mask Selection for Self-Supervised Point Cloud Learning in 3D
- Title(参考訳): GeoMask3D:3Dにおける自己教師付きポイントクラウド学習のための幾何学的インフォームドマスク選択
- Authors: Ali Bahri, Moslem Yazdanpanah, Mehrdad Noori, Milad Cheraghalikhani, Gustavo Adolfo Vargas Hakim, David Osowiechi, Farzad Beizaee, Ismail Ben Ayed, Christian Desrosiers,
- Abstract要約: ポイントクラウドのための自己教師型学習に先駆的なアプローチを導入する。
我々は、Masked Autosの効率を高めるためにGeoMask3D(GM3D)と呼ばれる幾何学的に情報を得たマスク選択戦略を採用した。
- 参考スコア(独自算出の注目度): 18.33878596057853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a pioneering approach to self-supervised learning for point clouds, employing a geometrically informed mask selection strategy called GeoMask3D (GM3D) to boost the efficiency of Masked Auto Encoders (MAE). Unlike the conventional method of random masking, our technique utilizes a teacher-student model to focus on intricate areas within the data, guiding the model's focus toward regions with higher geometric complexity. This strategy is grounded in the hypothesis that concentrating on harder patches yields a more robust feature representation, as evidenced by the improved performance on downstream tasks. Our method also presents a complete-to-partial feature-level knowledge distillation technique designed to guide the prediction of geometric complexity utilizing a comprehensive context from feature-level information. Extensive experiments confirm our method's superiority over State-Of-The-Art (SOTA) baselines, demonstrating marked improvements in classification, and few-shot tasks.
- Abstract(参考訳): 我々は,Masked Auto Encoders (MAE) の効率を高めるために,GeoMask3D (GM3D) と呼ばれる幾何学的に情報を得たマスク選択戦略を用いて,点雲に対する自己教師型学習の先駆的アプローチを導入する。
従来のランダムマスキング法とは異なり,本手法では教師学生モデルを用いて,データ内の複雑な領域に焦点をあてる。
この戦略は、より厳しいパッチに集中することでより堅牢な特徴表現が得られるという仮説に基づいている。
また,特徴量情報から包括的コンテキストを用いた幾何学的複雑性の予測を導くために,完全-部分的特徴量レベルの知識蒸留手法を提案する。
大規模実験により,本手法がSOTA(State-Of-The-Art)ベースラインよりも優れていることが確認された。
関連論文リスト
- Masked Generative Extractor for Synergistic Representation and 3D Generation of Point Clouds [6.69660410213287]
Masked Generative (MAGE) は生成モデルと表現学習の相乗効果を実証した。
我々は,この概念をクラウドデータに拡張するためのポイントMAGEを提案する。
形状分類タスクにおいて、Point-MAGEはModelNet40データセットで94.2%、ScanObjectNNデータセットで92.9%の精度を達成した。
論文 参考訳(メタデータ) (2024-06-25T07:57:03Z) - Masked Modeling for Self-supervised Representation Learning on Vision
and Beyond [69.64364187449773]
仮面モデリングは、トレーニング中に比例的にマスキングされる元のデータの一部を予測する、独特なアプローチとして現れてきた。
マスクモデリングにおけるテクニックの詳細については,多様なマスキング戦略,ターゲット回復,ネットワークアーキテクチャなどについて詳述する。
我々は、現在の手法の限界について議論し、マスクモデリング研究を進めるためのいくつかの道のりを指摘した。
論文 参考訳(メタデータ) (2023-12-31T12:03:21Z) - Towards Compact 3D Representations via Point Feature Enhancement Masked
Autoencoders [52.66195794216989]
本稿では,コンパクトな3D表現を学習するために,ポイント特徴強調マスク付きオートエンコーダ(Point-FEMAE)を提案する。
Point-FEMAEはグローバルブランチとローカルブランチで構成され、潜在意味的特徴をキャプチャする。
本手法は, クロスモーダル方式と比較して, 事前学習効率を著しく向上させる。
論文 参考訳(メタデータ) (2023-12-17T14:17:05Z) - Self-supervised Pre-training with Masked Shape Prediction for 3D Scene
Understanding [106.0876425365599]
Masked Shape Prediction (MSP)は、3Dシーンでマスクされた信号モデリングを行うための新しいフレームワークである。
MSPは3Dセマンティックキュー、すなわち幾何学的形状をマスクされた点の予測ターゲットとして使用する。
論文 参考訳(メタデータ) (2023-05-08T20:09:19Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - Unsupervised Domain Adaptation for Monocular 3D Object Detection via
Self-Training [57.25828870799331]
我々は、Mono3D上での教師なしドメイン適応のための新しい自己学習フレームワークSTMono3Dを提案する。
対象ドメイン上で適応的な擬似ラベルを生成するための教師学生パラダイムを開発する。
STMono3Dは、評価されたすべてのデータセットで顕著なパフォーマンスを達成し、KITTI 3Dオブジェクト検出データセットの完全な教師付き結果を超えています。
論文 参考訳(メタデータ) (2022-04-25T12:23:07Z) - Unsupervised Learning on 3D Point Clouds by Clustering and Contrasting [11.64827192421785]
教師なし表現学習は、人間の介入なしに機能を自動抽出するための有望な方向である。
本稿では、ポイントワイドおよびグローバルな特徴の学習を行うために、textbfConClu という、一般的な教師なしアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-05T12:54:17Z) - Efficient 3D Deep LiDAR Odometry [16.388259779644553]
PWCLO-Netという名前の効率的な3Dポイント・クラウド・ラーニング・アーキテクチャが最初に提案される。
アーキテクチャ全体は、コストボリュームとマスクの適応的な学習を実現するために、徹底的にエンドツーエンドに最適化されています。
論文 参考訳(メタデータ) (2021-11-03T11:09:49Z) - FG-Net: Fast Large-Scale LiDAR Point CloudsUnderstanding Network
Leveraging CorrelatedFeature Mining and Geometric-Aware Modelling [15.059508985699575]
FG-Netは、Voxelizationなしで大規模ポイントクラウドを理解するための一般的なディープラーニングフレームワークです。
相関型特徴マイニングと変形性畳み込みに基づく幾何認識モデルを用いた深層畳み込みニューラルネットワークを提案する。
我々のアプローチは精度と効率の点で最先端のアプローチを上回っている。
論文 参考訳(メタデータ) (2020-12-17T08:20:09Z) - Attention Model Enhanced Network for Classification of Breast Cancer
Image [54.83246945407568]
AMENはマルチブランチ方式で、画素ワイドアテンションモデルとサブモジュールの分類で定式化される。
微妙な詳細情報に焦点を合わせるため、サンプル画像は、前枝から生成された画素対応の注目マップによって強化される。
3つのベンチマークデータセットで行った実験は、様々なシナリオにおいて提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2020-10-07T08:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。