論文の概要: Voxel-MAE: Masked Autoencoders for Pre-training Large-scale Point Clouds
- arxiv url: http://arxiv.org/abs/2206.09900v1
- Date: Mon, 20 Jun 2022 17:15:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 10:52:26.728627
- Title: Voxel-MAE: Masked Autoencoders for Pre-training Large-scale Point Clouds
- Title(参考訳): Voxel-MAE:大規模点雲の事前学習のためのマスク付きオートエンコーダ
- Authors: Chen Min and Dawei Zhao and Liang Xiao and Yiming Nie and Bin Dai
- Abstract要約: 大規模点雲事前学習のためのマスクボクセル分類ネットワークを提案する。
我々のキーとなる考え方は、点雲をボクセル表現に分割し、ボクセルが点雲を含むかどうかを分類することである。
この単純な戦略により、ネットワークはオブジェクトの形状を認識し、それによって3Dオブジェクト検出の性能を向上させることができる。
- 参考スコア(独自算出の注目度): 8.6753662354331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mask-based pre-training has achieved great success for self-supervised
learning in image, video and language, without manually annotated supervision.
However, as information redundant data, it has not yet been studied in the
field of 3D object detection. As the point clouds in 3D object detection is
large-scale, it is impossible to reconstruct the input point clouds. In this
paper, we propose a mask voxel classification network for large-scale point
clouds pre-training. Our key idea is to divide the point clouds into voxel
representations and classify whether the voxel contains point clouds. This
simple strategy makes the network to be voxel-aware of the object shape, thus
improving the performance of 3D object detection. Extensive experiments show
great effectiveness of our pre-trained model with 3D object detectors (SECOND,
CenterPoint, and PV-RCNN) on three popular datasets (KITTI, Waymo, and
nuScenes). Codes are publicly available at https:
//github.com/chaytonmin/Voxel-MAE.
- Abstract(参考訳): マスクベースの事前学習は、手作業で注釈を付けずに、画像、ビデオ、言語で自己教師あり学習に成功している。
しかし,情報冗長データとして3次元物体検出の分野ではまだ研究されていない。
3次元物体検出における点雲は大規模であるため、入力点雲を再構築することは不可能である。
本稿では,大規模ポイント雲事前学習のためのマスクボクセル分類ネットワークを提案する。
私たちの重要なアイデアは、点雲をボクセル表現に分割し、ボクセルが点雲を含むかどうかを分類することです。
この単純な戦略により、ネットワークはオブジェクトの形状を認識し、3Dオブジェクト検出の性能を向上させる。
3次元物体検出器(SECOND, CenterPoint, PV-RCNN)による3つの一般的なデータセット(KITTI, Waymo, nuScenes)に対する事前学習モデルの有効性を示す。
コードはhttps: //github.com/chaytonmin/Voxel-MAEで公開されている。
関連論文リスト
- SPOT: Scalable 3D Pre-training via Occupancy Prediction for Autonomous
Driving [84.22159537581742]
職業予測は一般表現の学習に有望であることが示されている。
SPOTは、ポイントクラウド拡張にビーム再サンプリング技術を使用し、クラスバランス戦略を適用している。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - MAELi: Masked Autoencoder for Large-Scale LiDAR Point Clouds [13.426810473131642]
Masked AutoEncoder for LiDAR Point clouds (MAELi) は、復元中にエンコーダとデコーダの両方でLiDARポイントクラウドの空間性を直感的に活用する。
新たな再構築アプローチでは、MAELiは空空間と隠された空間を区別する。
これにより、MAELiは基礎となる3次元シーンの幾何学と意味論の理解を得る。
論文 参考訳(メタデータ) (2022-12-14T13:10:27Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - LWSIS: LiDAR-guided Weakly Supervised Instance Segmentation for
Autonomous Driving [34.119642131912485]
より巧妙なフレームワークであるLiDAR誘導弱監視インスタンス(LWSIS)を提示する。
LWSISは市販の3Dデータ、すなわちポイントクラウドと3Dボックスを2Dイメージインスタンスセグメンテーションモデルをトレーニングするための自然な弱い監督手段として使用している。
我々のLWSISは、訓練中のマルチモーダルデータの補完情報を利用するだけでなく、密集した2Dマスクのコストを大幅に削減します。
論文 参考訳(メタデータ) (2022-12-07T08:08:01Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - Masked Autoencoders for Self-Supervised Learning on Automotive Point
Clouds [2.8544513613730205]
Maskedオートエンコーディングは、テキスト、画像、そして最近ではポイントクラウドのためのTransformerモデルの事前トレーニングパラダイムとして成功している。
本稿では,ボクセル表現のためのマスク付き自動符号化事前学習方式であるVoxelMAEを提案する。
提案手法は,難解なnuScenesデータセット上で1.75mAPポイントと1.05NDSで3D OD性能を向上する。
論文 参考訳(メタデータ) (2022-07-01T16:31:45Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - Lifting 2D Object Locations to 3D by Discounting LiDAR Outliers across
Objects and Views [70.1586005070678]
本稿では,2次元マスクオブジェクトの予測と生のLiDAR点雲を自動的に3次元境界ボックスに変換するシステムを提案する。
これらの手法は, より複雑なパイプラインや3Dモデル, 付加的な人為的な事前情報ソースを使用するにもかかわらず, 従来よりもはるかに優れていた。
論文 参考訳(メタデータ) (2021-09-16T13:01:13Z) - MASS: Multi-Attentional Semantic Segmentation of LiDAR Data for Dense
Top-View Understanding [27.867824780748606]
運転シーンの高密度トップビュー理解のためのマルチアテンショナルセマンティックモデルMASSを紹介する。
本フレームワークは柱状および占有的特徴に基づいており、3つの注目型ビルディングブロックから構成されている。
本モデルは,KITTI-3Dデータセット上での3次元物体検出に極めて有効であることが示されている。
論文 参考訳(メタデータ) (2021-07-01T10:19:32Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。