論文の概要: OccFeat: Self-supervised Occupancy Feature Prediction for Pretraining BEV Segmentation Networks
- arxiv url: http://arxiv.org/abs/2404.14027v2
- Date: Wed, 15 May 2024 09:16:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 15:34:50.320106
- Title: OccFeat: Self-supervised Occupancy Feature Prediction for Pretraining BEV Segmentation Networks
- Title(参考訳): OccFeat: BEVセグメンテーションネットワークの事前学習のための自己管理型機能予測
- Authors: Sophia Sirko-Galouchenko, Alexandre Boulch, Spyros Gidaris, Andrei Bursuc, Antonin Vobecky, Patrick Pérez, Renaud Marlet,
- Abstract要約: 本稿では,カメラのみのBird's-Eye-View(BEV)セグメンテーションネットワークのための,OcFeatと呼ばれる自己教師付き事前学習手法を提案する。
OccFeatでは、占有率予測と特徴蒸留タスクを介して、BEVネットワークを事前訓練する。
本手法で事前訓練したモデルでは,特に低データシナリオにおいて,BEVセマンティックセマンティックセマンティクスの性能が向上した。
- 参考スコア(独自算出の注目度): 75.10231099007494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a self-supervised pretraining method, called OcFeat, for camera-only Bird's-Eye-View (BEV) segmentation networks. With OccFeat, we pretrain a BEV network via occupancy prediction and feature distillation tasks. Occupancy prediction provides a 3D geometric understanding of the scene to the model. However, the geometry learned is class-agnostic. Hence, we add semantic information to the model in the 3D space through distillation from a self-supervised pretrained image foundation model. Models pretrained with our method exhibit improved BEV semantic segmentation performance, particularly in low-data scenarios. Moreover, empirical results affirm the efficacy of integrating feature distillation with 3D occupancy prediction in our pretraining approach.
- Abstract(参考訳): 本稿では,カメラのみのBird's-Eye-View(BEV)セグメンテーションネットワークのための,OcFeatと呼ばれる自己教師付き事前学習手法を提案する。
OccFeatでは、占有率予測と特徴蒸留タスクを介して、BEVネットワークを事前訓練する。
アクシデント予測は、シーンをモデルに3次元の幾何学的理解を提供する。
しかし、学習した幾何学はクラスに依存しない。
そこで我々は, 自己教師付き事前学習画像基礎モデルからの蒸留を通じて, 3次元空間のモデルに意味情報を付加する。
本手法で事前訓練したモデルでは,特に低データシナリオにおいて,BEVセマンティックセマンティックセマンティクスの性能が向上した。
さらに, 予備訓練アプローチにおける特徴蒸留と3次元占有率予測の併用の有効性を実証的に確認した。
関連論文リスト
- RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - MIS-FM: 3D Medical Image Segmentation using Foundation Models Pretrained
on a Large-Scale Unannotated Dataset [14.823114726604853]
本稿では,3次元セグメンテーションモデルを事前学習するための,VF(Volume Fusion)と呼ばれる新たな自己教師型学習戦略を提案する。
VFは、手動のアノテーションなしで自己教師付きセグメンテーションタスクとして定式化される各ボクセルの融合係数を予測するようモデルを強制する。
頭部, 頸部臓器, 胸部, 腹部臓器など, 下流領域の異なる部位を対象とする実験により, 我々の事前訓練モデルがスクラッチからトレーニングに優れていたことが判明した。
論文 参考訳(メタデータ) (2023-06-29T13:22:13Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - OVO: Open-Vocabulary Occupancy [12.596828397087085]
セマンティック占有予測は、自律エージェントが3D環境で安全に動作するための周囲の密集した幾何学と意味を推測することを目的としている。
既存の占有率予測手法は,人間の注釈付きボリュームデータに基づいてほぼ完全に訓練されている。
本稿では,任意のクラスの意味的占有を予測できるが,訓練中に3Dアノテーションを必要としない新しい手法であるOpen Vocabulary Occupancy(OVO)を提案する。
論文 参考訳(メタデータ) (2023-05-25T15:07:25Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。