論文の概要: MAELi -- Masked Autoencoder for Large-Scale LiDAR Point Clouds
- arxiv url: http://arxiv.org/abs/2212.07207v1
- Date: Wed, 14 Dec 2022 13:10:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 15:12:59.059953
- Title: MAELi -- Masked Autoencoder for Large-Scale LiDAR Point Clouds
- Title(参考訳): MAELi -- 大規模LiDAR点雲のためのマスク付きオートエンコーダ
- Authors: Georg Krispel, David Schinagl, Christian Fruhwirth-Reisinger, Horst
Possegger, Horst Bischof
- Abstract要約: 大規模LiDAR点雲を効果的に自己教師付き表現学習に活用する方法を示す。
本稿では,LDAR 点群とデコーダの両方の間隔を直感的に利用する Masked AutoEncoder (MAELi) を提案する。
- 参考スコア(独自算出の注目度): 6.155733580467717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show how the inherent, but often neglected, properties of large-scale
LiDAR point clouds can be exploited for effective self-supervised
representation learning. To this end, we design a highly data-efficient feature
pre-training backbone that significantly reduces the amount of tedious 3D
annotations to train state-of-the-art object detectors. In particular, we
propose a Masked AutoEncoder (MAELi) that intuitively utilizes the sparsity of
the LiDAR point clouds in both, the encoder and the decoder, during
reconstruction. This results in more expressive and useful features, directly
applicable to downstream perception tasks, such as 3D object detection for
autonomous driving. In a novel reconstruction scheme, MAELi distinguishes
between free and occluded space and leverages a new masking strategy which
targets the LiDAR's inherent spherical projection. To demonstrate the potential
of MAELi, we pre-train one of the most widespread 3D backbones, in an
end-to-end fashion and show the merit of our fully unsupervised pre-trained
features on several 3D object detection architectures. Given only a tiny
fraction of labeled frames to fine-tune such detectors, we achieve significant
performance improvements. For example, with only $\sim800$ labeled frames,
MAELi features improve a SECOND model by +10.09APH/LEVEL 2 on Waymo Vehicles.
- Abstract(参考訳): 大規模lidar点雲の固有だがしばしば無視される性質を,効果的な自己教師付き表現学習に活用できることを示す。
この目的のために我々は,最先端オブジェクト検出器をトレーニングするための退屈な3dアノテーションの量を大幅に削減する,高度にデータ効率の高い事前トレーニングバックボーンを設計した。
特に,リコンストラクション中のエンコーダとデコーダの両方において,ライダー点雲のスパーシティを直感的に利用するマスク付きオートエンコーダ(maeli)を提案する。
これにより、より表現力が高く有用な機能となり、自動運転車の3Dオブジェクト検出などの下流認識タスクに直接適用できる。
新しい再構成方式では、マイリは自由空間とオクルード空間を区別し、ライダー固有の球面投影を標的とした新しいマスキング戦略を利用する。
MAELiの可能性を実証するために、我々は、エンドツーエンドで最も広く使われている3Dバックボーンの1つを事前訓練し、複数の3Dオブジェクト検出アーキテクチャにおいて、完全に教師なしの機能の利点を示す。
このような検出器を微調整するためのラベル付きフレームはごくわずかであるので,性能は大幅に向上する。
例えば、$\sim800$のラベル付きフレームを持つMAELiは、Waymo Vehiclesで+10.09APH/LEVEL 2でSECONDモデルを改善する。
関連論文リスト
- OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Semantics-aware LiDAR-Only Pseudo Point Cloud Generation for 3D Object
Detection [0.7234862895932991]
近年の進歩は擬似LiDAR、すなわち合成高密度点雲を導入し、カメラなどの追加のモダリティを使って3Dオブジェクト検出を強化している。
我々は,LiDARセンサとシーンセマンティクスに頼って,密度の高い擬似点雲で生スキャンを増強する,新しいLiDAR専用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-16T09:18:47Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point
Cloud Action Recognition [160.49403075559158]
本稿では,Pseudo-Labeling autoEncoder (textbfMAPLE) フレームワークを提案する。
特に、MAPLEのバックボーンとして、新規で効率的なtextbfDecoupled textbfspatial-textbftemporal TranstextbfFormer(textbfDestFormer)を設計する。
MAPLEは3つの公開ベンチマークにおいて優れた結果を得て、MSR-Action3の精度を8.08%向上させる。
論文 参考訳(メタデータ) (2022-09-01T12:32:40Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point
Clouds with Masked Occupancy Autoencoders [13.119676419877244]
本研究では,大規模未ラベル屋外LiDAR点雲の事前学習を活用することで,ラベル付き3Dトレーニングデータへの依存を低減する方法を提案する。
本手法では,Occupancy-MAEと呼ばれる自己監督型マスマスマスマスキングの事前学習手法を提案する。
3Dオブジェクト検出では、Occupancy-MAEは、KITTIデータセット上での車検出に必要なラベル付きデータを半減する。
3Dセマンティックセグメンテーションでは、Occupancy-MAEはmIoUでトレーニングをスクラッチから約2%上回っている。
論文 参考訳(メタデータ) (2022-06-20T17:15:50Z) - Self-Supervised Point Cloud Representation Learning with Occlusion
Auto-Encoder [63.77257588569852]
本稿では,3D Occlusion Auto-Encoder(3D-OAE)を提案する。
私たちのキーとなるアイデアは、入力ポイントクラウドのローカルパッチをランダムに排除し、隠されたパッチを復元することで監督を確立することです。
従来の手法とは対照的に、我々の3D-OAEは大量のパッチを除去し、少数の可視パッチでしか予測できない。
論文 参考訳(メタデータ) (2022-03-26T14:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。