論文の概要: Voxel-MAE: Masked Autoencoders for Pre-training Large-scale Point Clouds
- arxiv url: http://arxiv.org/abs/2206.09900v1
- Date: Mon, 20 Jun 2022 17:15:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 10:52:26.728627
- Title: Voxel-MAE: Masked Autoencoders for Pre-training Large-scale Point Clouds
- Title(参考訳): Voxel-MAE:大規模点雲の事前学習のためのマスク付きオートエンコーダ
- Authors: Chen Min and Dawei Zhao and Liang Xiao and Yiming Nie and Bin Dai
- Abstract要約: 大規模点雲事前学習のためのマスクボクセル分類ネットワークを提案する。
我々のキーとなる考え方は、点雲をボクセル表現に分割し、ボクセルが点雲を含むかどうかを分類することである。
この単純な戦略により、ネットワークはオブジェクトの形状を認識し、それによって3Dオブジェクト検出の性能を向上させることができる。
- 参考スコア(独自算出の注目度): 8.6753662354331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mask-based pre-training has achieved great success for self-supervised
learning in image, video and language, without manually annotated supervision.
However, as information redundant data, it has not yet been studied in the
field of 3D object detection. As the point clouds in 3D object detection is
large-scale, it is impossible to reconstruct the input point clouds. In this
paper, we propose a mask voxel classification network for large-scale point
clouds pre-training. Our key idea is to divide the point clouds into voxel
representations and classify whether the voxel contains point clouds. This
simple strategy makes the network to be voxel-aware of the object shape, thus
improving the performance of 3D object detection. Extensive experiments show
great effectiveness of our pre-trained model with 3D object detectors (SECOND,
CenterPoint, and PV-RCNN) on three popular datasets (KITTI, Waymo, and
nuScenes). Codes are publicly available at https:
//github.com/chaytonmin/Voxel-MAE.
- Abstract(参考訳): マスクベースの事前学習は、手作業で注釈を付けずに、画像、ビデオ、言語で自己教師あり学習に成功している。
しかし,情報冗長データとして3次元物体検出の分野ではまだ研究されていない。
3次元物体検出における点雲は大規模であるため、入力点雲を再構築することは不可能である。
本稿では,大規模ポイント雲事前学習のためのマスクボクセル分類ネットワークを提案する。
私たちの重要なアイデアは、点雲をボクセル表現に分割し、ボクセルが点雲を含むかどうかを分類することです。
この単純な戦略により、ネットワークはオブジェクトの形状を認識し、3Dオブジェクト検出の性能を向上させる。
3次元物体検出器(SECOND, CenterPoint, PV-RCNN)による3つの一般的なデータセット(KITTI, Waymo, nuScenes)に対する事前学習モデルの有効性を示す。
コードはhttps: //github.com/chaytonmin/Voxel-MAEで公開されている。
関連論文リスト
- Triple Point Masking [49.39218611030084]
既存の3Dマスク学習手法は、限られたデータの下でパフォーマンスボトルネックに遭遇する。
我々は、マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして、TPMと呼ばれるトリプルポイントマスキング方式を導入する。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2024-09-26T05:33:30Z) - Sense Less, Generate More: Pre-training LiDAR Perception with Masked Autoencoders for Ultra-Efficient 3D Sensing [0.6340101348986665]
本稿では,環境の広範囲なトレーニングに基づいて予測可能か,あるいは全体的な予測精度に限界がある環境の一部ではなく,環境の一部を生成する,破壊的かつフラグアルなLiDAR知覚データフローを提案する。
この目的のために提案した生成前訓練戦略であるR-MAE(Radially masked autoencoding)は、オンフィールド操作中にランダムに生成された角状領域のレーザパワーを選択的に活性化制御することにより、典型的なLiDARシステムでも容易に実装できる。
論文 参考訳(メタデータ) (2024-06-12T03:02:54Z) - Learning Shared RGB-D Fields: Unified Self-supervised Pre-training for Label-efficient LiDAR-Camera 3D Perception [17.11366229887873]
我々は、統合事前訓練戦略、NeRF-Supervised Masked Auto(NS-MAE)を導入する。
NS-MAEは、外観と幾何学の両方を符号化するNeRFの能力を利用して、マルチモーダルデータの効率的なマスク付き再構築を可能にする。
結果: NS-MAE は SOTA 事前学習法よりも優れており,各モードに対して個別の戦略を用いる。
論文 参考訳(メタデータ) (2024-05-28T08:13:49Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - MAELi: Masked Autoencoder for Large-Scale LiDAR Point Clouds [13.426810473131642]
Masked AutoEncoder for LiDAR Point clouds (MAELi) は、復元中にエンコーダとデコーダの両方でLiDARポイントクラウドの空間性を直感的に活用する。
新たな再構築アプローチでは、MAELiは空空間と隠された空間を区別する。
これにより、MAELiは基礎となる3次元シーンの幾何学と意味論の理解を得る。
論文 参考訳(メタデータ) (2022-12-14T13:10:27Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - Masked Autoencoders for Self-Supervised Learning on Automotive Point
Clouds [2.8544513613730205]
Maskedオートエンコーディングは、テキスト、画像、そして最近ではポイントクラウドのためのTransformerモデルの事前トレーニングパラダイムとして成功している。
本稿では,ボクセル表現のためのマスク付き自動符号化事前学習方式であるVoxelMAEを提案する。
提案手法は,難解なnuScenesデータセット上で1.75mAPポイントと1.05NDSで3D OD性能を向上する。
論文 参考訳(メタデータ) (2022-07-01T16:31:45Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - Lifting 2D Object Locations to 3D by Discounting LiDAR Outliers across
Objects and Views [70.1586005070678]
本稿では,2次元マスクオブジェクトの予測と生のLiDAR点雲を自動的に3次元境界ボックスに変換するシステムを提案する。
これらの手法は, より複雑なパイプラインや3Dモデル, 付加的な人為的な事前情報ソースを使用するにもかかわらず, 従来よりもはるかに優れていた。
論文 参考訳(メタデータ) (2021-09-16T13:01:13Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。