論文の概要: MAELi: Masked Autoencoder for Large-Scale LiDAR Point Clouds
- arxiv url: http://arxiv.org/abs/2212.07207v4
- Date: Fri, 8 Sep 2023 10:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 18:36:37.311992
- Title: MAELi: Masked Autoencoder for Large-Scale LiDAR Point Clouds
- Title(参考訳): MAELi: 大規模LiDARポイントクラウドのためのマスク付きオートエンコーダ
- Authors: Georg Krispel, David Schinagl, Christian Fruhwirth-Reisinger, Horst
Possegger, Horst Bischof
- Abstract要約: Masked AutoEncoder for LiDAR Point clouds (MAELi) は、復元中にエンコーダとデコーダの両方でLiDARポイントクラウドの空間性を直感的に活用する。
新たな再構築アプローチでは、MAELiは空空間と隠された空間を区別する。
これにより、MAELiは基礎となる3次元シーンの幾何学と意味論の理解を得る。
- 参考スコア(独自算出の注目度): 13.426810473131642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The sensing process of large-scale LiDAR point clouds inevitably causes large
blind spots, i.e. regions not visible to the sensor. We demonstrate how these
inherent sampling properties can be effectively utilized for self-supervised
representation learning by designing a highly effective pre-training framework
that considerably reduces the need for tedious 3D annotations to train
state-of-the-art object detectors. Our Masked AutoEncoder for LiDAR point
clouds (MAELi) intuitively leverages the sparsity of LiDAR point clouds in both
the encoder and decoder during reconstruction. This results in more expressive
and useful initialization, which can be directly applied to downstream
perception tasks, such as 3D object detection or semantic segmentation for
autonomous driving. In a novel reconstruction approach, MAELi distinguishes
between empty and occluded space and employs a new masking strategy that
targets the LiDAR's inherent spherical projection. Thereby, without any ground
truth whatsoever and trained on single frames only, MAELi obtains an
understanding of the underlying 3D scene geometry and semantics. To demonstrate
the potential of MAELi, we pre-train backbones in an end-to-end manner and show
the effectiveness of our unsupervised pre-trained weights on the tasks of 3D
object detection and semantic segmentation.
- Abstract(参考訳): 大規模なLiDAR点雲のセンシングプロセスは、必然的に大きな盲点、すなわちセンサーに見えない領域を引き起こす。
我々は,これらの固有サンプリング特性を自己教師付き表現学習に効果的に活用する方法を,最先端オブジェクト検出器を訓練するための退屈な3dアノテーションの必要性を大幅に軽減する,高度に効果的な事前学習フレームワークの設計により実証する。
我々のMasked AutoEncoder for LiDAR point clouds (MAELi) は、復元中にエンコーダとデコーダの両方でLiDAR点雲の空間性を直感的に活用する。
これにより、より表現力が高く有用な初期化が可能になり、3Dオブジェクトの検出や自律運転のセマンティックセグメンテーションといった下流認識タスクに直接適用することができる。
新たな再構築アプローチでは、MAELiは空と空の空間を区別し、LiDAR固有の球面投影を狙う新しいマスキング戦略を採用している。
したがって、基礎となる真理は一切なく、単一のフレームのみでトレーニングされ、maeliは基礎となる3dシーンの幾何学とセマンティクスの理解を得る。
MAELiの可能性を実証するために, 終末的に事前訓練したバックボーンを用いて, 3次元物体検出とセマンティックセグメンテーションのタスクに対する教師なし事前訓練の効果を示す。
関連論文リスト
- OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Semantics-aware LiDAR-Only Pseudo Point Cloud Generation for 3D Object
Detection [0.7234862895932991]
近年の進歩は擬似LiDAR、すなわち合成高密度点雲を導入し、カメラなどの追加のモダリティを使って3Dオブジェクト検出を強化している。
我々は,LiDARセンサとシーンセマンティクスに頼って,密度の高い擬似点雲で生スキャンを増強する,新しいLiDAR専用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-16T09:18:47Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point
Cloud Action Recognition [160.49403075559158]
本稿では,Pseudo-Labeling autoEncoder (textbfMAPLE) フレームワークを提案する。
特に、MAPLEのバックボーンとして、新規で効率的なtextbfDecoupled textbfspatial-textbftemporal TranstextbfFormer(textbfDestFormer)を設計する。
MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
論文 参考訳(メタデータ) (2022-09-01T12:32:40Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point
Clouds with Masked Occupancy Autoencoders [13.119676419877244]
本研究では,大規模未ラベル屋外LiDAR点雲の事前学習を活用することで,ラベル付き3Dトレーニングデータへの依存を低減する方法を提案する。
本手法では,Occupancy-MAEと呼ばれる自己監督型マスマスマスマスキングの事前学習手法を提案する。
3Dオブジェクト検出では、Occupancy-MAEは、KITTIデータセット上での車検出に必要なラベル付きデータを半減する。
3Dセマンティックセグメンテーションでは、Occupancy-MAEはmIoUでトレーニングをスクラッチから約2%上回っている。
論文 参考訳(メタデータ) (2022-06-20T17:15:50Z) - Self-Supervised Point Cloud Representation Learning with Occlusion
Auto-Encoder [63.77257588569852]
本稿では,3D Occlusion Auto-Encoder(3D-OAE)を提案する。
私たちのキーとなるアイデアは、入力ポイントクラウドのローカルパッチをランダムに排除し、隠されたパッチを復元することで監督を確立することです。
従来の手法とは対照的に、我々の3D-OAEは大量のパッチを除去し、少数の可視パッチでしか予測できない。
論文 参考訳(メタデータ) (2022-03-26T14:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。