論文の概要: Sense Less, Generate More: Pre-training LiDAR Perception with Masked Autoencoders for Ultra-Efficient 3D Sensing
- arxiv url: http://arxiv.org/abs/2406.07833v1
- Date: Wed, 12 Jun 2024 03:02:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 20:36:36.887430
- Title: Sense Less, Generate More: Pre-training LiDAR Perception with Masked Autoencoders for Ultra-Efficient 3D Sensing
- Title(参考訳): 超高効率3Dセンシングのためのマスク付きオートエンコーダによるLiDARの事前学習
- Authors: Sina Tayebati, Theja Tulabandhula, Amit R. Trivedi,
- Abstract要約: 本稿では,環境の広範囲なトレーニングに基づいて予測可能か,あるいは全体的な予測精度に限界がある環境の一部ではなく,環境の一部を生成する,破壊的かつフラグアルなLiDAR知覚データフローを提案する。
この目的のために提案した生成前訓練戦略であるR-MAE(Radially masked autoencoding)は、オンフィールド操作中にランダムに生成された角状領域のレーザパワーを選択的に活性化制御することにより、典型的なLiDARシステムでも容易に実装できる。
- 参考スコア(独自算出の注目度): 0.6340101348986665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose a disruptively frugal LiDAR perception dataflow that generates rather than senses parts of the environment that are either predictable based on the extensive training of the environment or have limited consequence to the overall prediction accuracy. Therefore, the proposed methodology trades off sensing energy with training data for low-power robotics and autonomous navigation to operate frugally with sensors, extending their lifetime on a single battery charge. Our proposed generative pre-training strategy for this purpose, called as radially masked autoencoding (R-MAE), can also be readily implemented in a typical LiDAR system by selectively activating and controlling the laser power for randomly generated angular regions during on-field operations. Our extensive evaluations show that pre-training with R-MAE enables focusing on the radial segments of the data, thereby capturing spatial relationships and distances between objects more effectively than conventional procedures. Therefore, the proposed methodology not only reduces sensing energy but also improves prediction accuracy. For example, our extensive evaluations on Waymo, nuScenes, and KITTI datasets show that the approach achieves over a 5% average precision improvement in detection tasks across datasets and over a 4% accuracy improvement in transferring domains from Waymo and nuScenes to KITTI. In 3D object detection, it enhances small object detection by up to 4.37% in AP at moderate difficulty levels in the KITTI dataset. Even with 90% radial masking, it surpasses baseline models by up to 5.59% in mAP/mAPH across all object classes in the Waymo dataset. Additionally, our method achieves up to 3.17% and 2.31% improvements in mAP and NDS, respectively, on the nuScenes dataset, demonstrating its effectiveness with both single and fused LiDAR-camera modalities. https://github.com/sinatayebati/Radial_MAE.
- Abstract(参考訳): 本研究では,環境の広範囲なトレーニングに基づいて予測可能か,あるいは全体の予測精度に制限がある環境の一部を検出するのではなく,その部分を生成する,破壊的かつフラグアルなLiDAR知覚データフローを提案する。
そこで,提案手法は,低消費電力ロボットと自律走行のためのトレーニングデータと,センサによる軽快な動作のためのセンサエネルギーを交換し,その寿命を1回の充電で延長する。
この目的のために提案した生成前訓練戦略であるR-MAE(Radially masked autoencoding)は、オンフィールド操作中にランダムに生成された角状領域のレーザパワーを選択的に活性化制御することにより、典型的なLiDARシステムでも容易に実装できる。
本研究では,R-MAEを用いた事前学習により,従来の手法よりも空間的関係や物体間距離を効果的に把握できることを示す。
したがって,提案手法はセンサエネルギーを削減するだけでなく,予測精度も向上する。
例えば、Waymo、nuScenes、KITTIデータセットに対する広範な評価は、このアプローチがデータセット全体にわたる検出タスクの平均精度改善を5%以上達成し、WaymoやnuScenesからKITTIへのドメイン転送における精度改善を4%以上達成していることを示している。
3Dオブジェクト検出では、KITTIデータセットの適度な難易度でAPの4.37%まで小さなオブジェクト検出を強化する。
90%のラジアルマスクでも、Waymoデータセットのすべてのオブジェクトクラスで、mAP/mAPHのベースラインモデルを最大5.59%上回る。
さらに, nuScenesデータセットでは, mAPおよびNDSの最大3.17%と2.31%の改善が達成され, 単一および融合LiDARカメラの両モードでの有効性が示された。
https://github.com/sinatayebati/Radial_MAE.com
関連論文リスト
- Finetuning Pre-trained Model with Limited Data for LiDAR-based 3D Object Detection by Bridging Domain Gaps [8.897884780881535]
LiDARベースの3Dオブジェクト検出器は、センサーの設定が異なるターゲットドメインにうまく適応できないことが多い。
近年の研究では、トレーニング済みのバックボーンは大規模でラベルのないLiDARフレームで自己管理的に学習できることが示唆されている。
本研究では,対象データに制限のある事前学習モデルを適用するために,DADT(Domain Adaptive Distill-Tuning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T08:22:42Z) - TraIL-Det: Transformation-Invariant Local Feature Networks for 3D LiDAR Object Detection with Unsupervised Pre-Training [21.56675189346088]
本稿では変換不変ローカル(TraIL)機能と関連するTraIL-Detアーキテクチャを紹介する。
TraILの特徴は、厳密な変換不変性を示し、点密度の変動に効果的に適応する。
彼らはLiDARの固有の等方性放射を利用して局所的な表現を強化する。
提案手法は,KITTI上のmAPを用いて,現代自己監督型3次元物体検出手法より優れている。
論文 参考訳(メタデータ) (2024-08-25T17:59:17Z) - Quanv4EO: Empowering Earth Observation by means of Quanvolutional Neural Networks [62.12107686529827]
本稿は、大量のリモートセンシングデータの処理において、量子コンピューティング技術を活用することへの大きなシフトを取り上げる。
提案したQuanv4EOモデルでは,多次元EOデータを前処理するための準進化法が導入された。
主要な知見は,提案モデルが画像分類の精度を維持するだけでなく,EOのユースケースの約5%の精度向上を図っていることを示唆している。
論文 参考訳(メタデータ) (2024-07-24T09:11:34Z) - Continuously Optimizing Radar Placement with Model Predictive Path Integrals [16.148347437965683]
センサー配置の連続最適化は、様々な軍事・民間用途における正確な目標位置決めに不可欠である。
レーダパラメータとレーダ目標距離を組み込んだレンジ計測モデルを用いる。
我々は、時間とともにレーダーと目標の進化する幾何学を可視化し、最も高い測定情報を得る領域をハイライトする。
論文 参考訳(メタデータ) (2024-05-29T11:25:53Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Monocular 3D Object Detection with LiDAR Guided Semi Supervised Active
Learning [2.16117348324501]
LiDAR誘導を用いたモノクロ3次元物体検出のための新しい半教師付き能動学習フレームワーク(SSAL)を提案する。
我々はLiDARを用いて、単分子型3D検出器のデータ選択とトレーニングを、推論フェーズのオーバーヘッドを伴わずにガイドする。
トレーニング戦略は,BEV平均精度(AP)を2.02倍に向上させることで,KITTI 3Dと鳥眼視(BEV)単眼物体検出の公式ベンチマークでトップとなる。
論文 参考訳(メタデータ) (2023-07-17T11:55:27Z) - Improving LiDAR 3D Object Detection via Range-based Point Cloud Density
Optimization [13.727464375608765]
既存の3Dオブジェクト検出器は、遠くにある領域とは対照的に、LiDARセンサーに近い点雲領域でよく機能する傾向にある。
センサ近傍の高密度物体に対する検出モデルには学習バイアスがあり、異なる距離で入力点雲密度を操作するだけで検出性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-09T04:11:43Z) - MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based
Self-Supervised Pre-Training [58.07391711548269]
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
論文 参考訳(メタデータ) (2023-03-23T17:59:02Z) - Collaborative Learning with a Drone Orchestrator [79.75113006257872]
インテリジェントな無線デバイス群は、ドローンの助けを借りて共有ニューラルネットワークモデルを訓練する。
提案したフレームワークは,トレーニングの大幅な高速化を実現し,ドローンホバリング時間の平均24%と87%の削減を実現している。
論文 参考訳(メタデータ) (2023-03-03T23:46:25Z) - SelfVoxeLO: Self-supervised LiDAR Odometry with Voxel-based Deep Neural
Networks [81.64530401885476]
本稿では,これら2つの課題に対処するために,自己教師型LiDARオドメトリー法(SelfVoxeLO)を提案する。
具体的には、生のLiDARデータを直接処理する3D畳み込みネットワークを提案し、3D幾何パターンをよりよく符号化する特徴を抽出する。
我々は,KITTIとApollo-SouthBayという2つの大規模データセット上での手法の性能を評価する。
論文 参考訳(メタデータ) (2020-10-19T09:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。