論文の概要: Label-Efficient LiDAR Semantic Segmentation with 2D-3D Vision Transformer Adapters
- arxiv url: http://arxiv.org/abs/2503.03299v1
- Date: Wed, 05 Mar 2025 09:30:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:52:09.083273
- Title: Label-Efficient LiDAR Semantic Segmentation with 2D-3D Vision Transformer Adapters
- Title(参考訳): 2次元3次元視覚変換器を用いたラベル効率の良いLiDARセマンティックセマンティックセグメンテーション
- Authors: Julia Hindel, Rohit Mohan, Jelena Bratulic, Daniele Cattaneo, Thomas Brox, Abhinav Valada,
- Abstract要約: BALViTは、凍結視覚モデルを利用して強力なLiDARエンコーダを学習するためのアモーダル機能エンコーダである。
コードとモデルは、http://balvit.cs.uni-freiburg.deで公開しています。
- 参考スコア(独自算出の注目度): 32.21090169762889
- License:
- Abstract: LiDAR semantic segmentation models are typically trained from random initialization as universal pre-training is hindered by the lack of large, diverse datasets. Moreover, most point cloud segmentation architectures incorporate custom network layers, limiting the transferability of advances from vision-based architectures. Inspired by recent advances in universal foundation models, we propose BALViT, a novel approach that leverages frozen vision models as amodal feature encoders for learning strong LiDAR encoders. Specifically, BALViT incorporates both range-view and bird's-eye-view LiDAR encoding mechanisms, which we combine through a novel 2D-3D adapter. While the range-view features are processed through a frozen image backbone, our bird's-eye-view branch enhances them through multiple cross-attention interactions. Thereby, we continuously improve the vision network with domain-dependent knowledge, resulting in a strong label-efficient LiDAR encoding mechanism. Extensive evaluations of BALViT on the SemanticKITTI and nuScenes benchmarks demonstrate that it outperforms state-of-the-art methods on small data regimes. We make the code and models publicly available at: http://balvit.cs.uni-freiburg.de.
- Abstract(参考訳): LiDARセマンティックセグメンテーションモデルは、通常ランダム初期化から訓練される。
さらに、ほとんどのポイントクラウドセグメンテーションアーキテクチャはカスタムネットワークレイヤを取り入れており、ビジョンベースのアーキテクチャからの進化の転送可能性を制限する。
近年のユニバーサルファンデーションモデルの発展に触発されて,凍結視覚モデルをアモーダル特徴エンコーダとして活用し,強力なLiDARエンコーダを学習する手法であるBALViTを提案する。
具体的には、BALViTは2D-3Dアダプタを組み込んだレンジビューとバードアイビューの両方のLiDAR符号化機構を組み込んでいる。
レンジビュー機能は凍結した画像バックボーンによって処理されるが、我々の鳥眼ビューブランチは複数の横断的相互作用によってそれらを強化する。
これにより、ドメインに依存した知識でビジョンネットワークを継続的に改善し、強力なラベル効率のLiDAR符号化機構を実現する。
SemanticKITTI と nuScenes ベンチマークにおける BALViT の大規模な評価は、小さなデータレシエーションにおける最先端の手法よりも優れていることを示している。
コードとモデルは、http://balvit.cs.uni-freiburg.deで公開しています。
関連論文リスト
- Mapping and Localization Using LiDAR Fiducial Markers [0.8702432681310401]
Dissertationは、LiDARフィデューシャルマーカーを用いたマッピングとローカライゼーションのための新しいフレームワークを提案する。
Intensity Image-based LiDAR Fiducial Marker (IFM)システムを導入する。
LFMに基づく新しいマッピングとローカライズ手法は、順序のない低オーバーラップ点雲を登録する。
論文 参考訳(メタデータ) (2025-02-05T17:33:59Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。
エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文 参考訳(メタデータ) (2024-11-21T18:31:25Z) - Learning Shared RGB-D Fields: Unified Self-supervised Pre-training for Label-efficient LiDAR-Camera 3D Perception [17.11366229887873]
我々は、統合事前訓練戦略、NeRF-Supervised Masked Auto(NS-MAE)を導入する。
NS-MAEは、外観と幾何学の両方を符号化するNeRFの能力を利用して、マルチモーダルデータの効率的なマスク付き再構築を可能にする。
結果: NS-MAE は SOTA 事前学習法よりも優れており,各モードに対して個別の戦略を用いる。
論文 参考訳(メタデータ) (2024-05-28T08:13:49Z) - Weak-to-Strong 3D Object Detection with X-Ray Distillation [75.47580744933724]
本稿では,既存の任意の3Dオブジェクト検出フレームワークにシームレスに統合する多目的手法を提案する。
オブジェクト・コンプリートフレームを用いたX線蒸留は、教師付き設定と半教師付き設定の両方に適している。
提案手法は,半教師あり学習における最先端の手法を1-1.5mAPで超越する。
論文 参考訳(メタデータ) (2024-03-31T13:09:06Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - Image Understands Point Cloud: Weakly Supervised 3D Semantic
Segmentation via Association Learning [59.64695628433855]
ラベルのない画像から補完的な情報を取り入れた3次元セグメンテーションのための新しいクロスモダリティ弱教師付き手法を提案する。
基本的に、ラベルの小さな部分のパワーを最大化するために、アクティブなラベリング戦略を備えたデュアルブランチネットワークを設計する。
提案手法は,1%未満のアクティブなアノテーションで,最先端の完全教師付き競合よりも優れていた。
論文 参考訳(メタデータ) (2022-09-16T07:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。