Fugu-MT 論文翻訳(概要): MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based Self-Supervised Pre-Training

論文の概要: MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based Self-Supervised Pre-Training

arxiv url: http://arxiv.org/abs/2303.13510v1
Date: Thu, 23 Mar 2023 17:59:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 12:44:37.430979
Title: MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based Self-Supervised Pre-Training
Title（参考訳）: MV-JAR:擬似ボクセルJigsawとLiDARによる自己監督型事前訓練の再構築
Authors: Runsen Xu, Tai Wang, Wenwei Zhang, Runjian Chen, Jinkun Cao, Jiangmiao Pang, Dahua Lin
Abstract要約: Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
参考スコア（独自算出の注目度）: 58.07391711548269
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper introduces the Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training and a carefully designed data-efficient 3D object detection benchmark on the Waymo dataset. Inspired by the scene-voxel-point hierarchy in downstream 3D object detectors, we design masking and reconstruction strategies accounting for voxel distributions in the scene and local point distributions within the voxel. We employ a Reversed-Furthest-Voxel-Sampling strategy to address the uneven distribution of LiDAR points and propose MV-JAR, which combines two techniques for modeling the aforementioned distributions, resulting in superior performance. Our experiments reveal limitations in previous data-efficient experiments, which uniformly sample fine-tuning splits with varying data proportions from each LiDAR sequence, leading to similar data diversity across splits. To address this, we propose a new benchmark that samples scene sequences for diverse fine-tuning splits, ensuring adequate model convergence and providing a more accurate evaluation of pre-training methods. Experiments on our Waymo benchmark and the KITTI dataset demonstrate that MV-JAR consistently and significantly improves 3D detection performance across various data scales, achieving up to a 6.3% increase in mAPH compared to training from scratch. Codes and the benchmark will be available at https://github.com/SmartBot-PJLab/MV-JAR .
Abstract（参考訳）: 本稿では,LiDARをベースとした自己教師型事前学習のためのMasked Voxel Jigsaw and Reconstruction (MV-JAR)手法と,Waymoデータセット上のデータ効率のよい3Dオブジェクト検出ベンチマークについて述べる。下流3次元物体検出器におけるボクセル点階層に着想を得て,シーン内のボクセル分布とボクセル内の局所点分布を考慮したマスキングおよび再構成戦略を設計する。逆Furthest-Voxel-Sampling法を用いて、LiDAR点の不均一分布に対処し、上記の分布をモデル化する2つの手法を組み合わせたMV-JARを提案する。実験の結果,従来のデータ効率実験の限界が明らかとなり,各LiDARシークエンスから異なるデータ比率で微調整スプリットを均一にサンプリングした。そこで本研究では,様々な微調整分割のためのシーンシーケンスをサンプリングし,適切なモデル収束を保証し,事前学習手法をより正確に評価する新しいベンチマークを提案する。 WaymoベンチマークとKITTIデータセットの実験では、MV-JARはさまざまなデータスケールにわたる3D検出性能を一貫して改善し、スクラッチからのトレーニングに比べて最大6.3%のmAPHを実現している。コードとベンチマークはhttps://github.com/SmartBot-PJLab/MV-JAR で公開される。

関連論文リスト

LiMoE: Mixture of LiDAR Representation Learners from Automotive Scenes [55.33167217384738]
LiMoEは、Mixture of Experts(MoE)パラダイムをLiDARデータ表現学習に統合するフレームワークである。我々のアプローチは3つの段階からなる: Image-to-LiDAR Pretraining, Contrastive Mixture Learning (CML), Semantic Mixture Supervision (SMS)。
論文参考訳（メタデータ） (2025-01-07T18:59:58Z)
TSceneJAL: Joint Active Learning of Traffic Scenes for 3D Object Detection [26.059907173437114]
TSceneJALフレームワークはラベル付きデータとラベルなしデータの両方から、バランスのとれた、多様性のある、複雑なトラフィックシーンを効率的にサンプリングすることができる。提案手法は,3次元オブジェクト検出タスクにおける既存の最先端手法よりも12%向上した。
論文参考訳（メタデータ） (2024-12-25T11:07:04Z)
A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文参考訳（メタデータ） (2024-12-01T00:29:57Z)
OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。 OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文参考訳（メタデータ） (2024-09-14T07:44:22Z)
Multi-Space Alignments Towards Universal LiDAR Segmentation [50.992103482269016]
M3Netはマルチタスク、マルチデータセット、マルチモダリティのLiDARセグメンテーションを実現するための1対1のフレームワークである。まず、さまざまなシーンから異なるタイプのセンサーによって取得された大規模な運転データセットを組み合わせる。次に、トレーニング中にデータ、特徴、ラベル空間という3つの空間でアライメントを行います。
論文参考訳（メタデータ） (2024-05-02T17:59:57Z)
LiDAR Data Synthesis with Denoising Diffusion Probabilistic Models [1.1965844936801797]
3D LiDARデータの生成モデリングは、自律移動ロボットに有望な応用をもたらす新たな課題である。我々は,多種多様かつ高忠実な3Dシーンポイント雲を生成可能な,LiDARデータのための新しい生成モデルR2DMを提案する。本手法は拡散確率モデル (DDPM) を用いて構築され, 生成モデルフレームワークにおいて顕著な結果が得られた。
論文参考訳（メタデータ） (2023-09-17T12:26:57Z)
Diffusion-based 3D Object Detection with Random Boxes [58.43022365393569]
既存のアンカーベースの3D検出方法は、アンカーの実証的な設定に依存しており、アルゴリズムはエレガンスを欠いている。提案するDiff3Detは,検出ボックスを生成対象として考慮し,拡散モデルから3次元オブジェクト検出のための提案生成へ移行する。推論段階では、モデルは予測結果にランダムボックスのセットを徐々に洗練する。
論文参考訳（メタデータ） (2023-09-05T08:49:53Z)
Monocular 3D Object Detection with LiDAR Guided Semi Supervised Active Learning [2.16117348324501]
LiDAR誘導を用いたモノクロ3次元物体検出のための新しい半教師付き能動学習フレームワーク(SSAL)を提案する。我々はLiDARを用いて、単分子型3D検出器のデータ選択とトレーニングを、推論フェーズのオーバーヘッドを伴わずにガイドする。トレーニング戦略は,BEV平均精度(AP)を2.02倍に向上させることで,KITTI 3Dと鳥眼視(BEV)単眼物体検出の公式ベンチマークでトップとなる。
論文参考訳（メタデータ） (2023-07-17T11:55:27Z)
Uni3D: A Unified Baseline for Multi-dataset 3D Object Detection [34.2238222373818]
現在の3Dオブジェクト検出モデルは、単一のデータセット固有のトレーニングとテストのパラダイムに従っている。本稿では,複数のデータセットから統合された3次元検出器を訓練する作業について検討する。単純なデータレベルの修正操作と設計された意味レベルの結合・再結合モジュールを利用するUni3Dを提案する。
論文参考訳（メタデータ） (2023-03-13T05:54:13Z)
Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。 nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文参考訳（メタデータ） (2022-06-30T01:44:30Z)
Dense Voxel Fusion for 3D Object Detection [10.717415797194896]
ボクセル融合 (Voxel Fusion, DVF) は, 多スケール密度ボクセル特徴表現を生成する逐次融合法である。地上の真理2Dバウンディングボックスラベルを直接トレーニングし、ノイズの多い検出器固有の2D予測を避けます。提案したマルチモーダルトレーニング戦略は, 誤った2次元予測を用いたトレーニングに比べ, より一般化できることを示す。
論文参考訳（メタデータ） (2022-03-02T04:51:31Z)
SelfVoxeLO: Self-supervised LiDAR Odometry with Voxel-based Deep Neural Networks [81.64530401885476]
本稿では,これら2つの課題に対処するために,自己教師型LiDARオドメトリー法(SelfVoxeLO)を提案する。具体的には、生のLiDARデータを直接処理する3D畳み込みネットワークを提案し、3D幾何パターンをよりよく符号化する特徴を抽出する。我々は,KITTIとApollo-SouthBayという2つの大規模データセット上での手法の性能を評価する。
論文参考訳（メタデータ） (2020-10-19T09:23:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。