論文の概要: MinkOcc: Towards real-time label-efficient semantic occupancy prediction
- arxiv url: http://arxiv.org/abs/2504.02270v1
- Date: Thu, 03 Apr 2025 04:31:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:55:21.382549
- Title: MinkOcc: Towards real-time label-efficient semantic occupancy prediction
- Title(参考訳): MinkOcc: リアルタイムラベル効率のセマンティック占有率予測を目指して
- Authors: Samuel Sze, Daniele De Martini, Lars Kunze,
- Abstract要約: MinkOccはカメラとLiDARのためのマルチモーダルな3Dセマンティック占有予測フレームワークである。
競争精度を維持しつつ、手動ラベリングへの依存を90%削減する。
我々は、MinkOccをキュレートされたデータセットを超えて拡張することを目指しており、自動運転における3Dセマンティック占有率予測のより広範な現実的な展開を可能にしている。
- 参考スコア(独自算出の注目度): 8.239334282982623
- License:
- Abstract: Developing 3D semantic occupancy prediction models often relies on dense 3D annotations for supervised learning, a process that is both labor and resource-intensive, underscoring the need for label-efficient or even label-free approaches. To address this, we introduce MinkOcc, a multi-modal 3D semantic occupancy prediction framework for cameras and LiDARs that proposes a two-step semi-supervised training procedure. Here, a small dataset of explicitly 3D annotations warm-starts the training process; then, the supervision is continued by simpler-to-annotate accumulated LiDAR sweeps and images -- semantically labelled through vision foundational models. MinkOcc effectively utilizes these sensor-rich supervisory cues and reduces reliance on manual labeling by 90\% while maintaining competitive accuracy. In addition, the proposed model incorporates information from LiDAR and camera data through early fusion and leverages sparse convolution networks for real-time prediction. With its efficiency in both supervision and computation, we aim to extend MinkOcc beyond curated datasets, enabling broader real-world deployment of 3D semantic occupancy prediction in autonomous driving.
- Abstract(参考訳): 3Dセマンティック占有予測モデルの開発は、しばしば教師付き学習のための高密度な3Dアノテーションに依存している。
そこで本研究では,カメラとLiDARのためのマルチモーダルな3Dセマンティック占有予測フレームワークであるMinkOccを紹介する。
ここでは、明示的な3Dアノテーションの小さなデータセットがトレーニングプロセスをウォームスタートさせ、その監視は、視覚基礎モデルを通じて意味的にラベル付けされた、シンプルな注釈付けされたLiDARスイープとイメージによって継続される。
MinkOccは、これらのセンサリッチな監視手段を効果的に活用し、競争精度を維持しながら手動ラベリングへの依存度を90%削減する。
さらに、LiDARとカメラデータからの情報を早期融合により組み込んで、スパース畳み込みネットワークを利用してリアルタイムの予測を行う。
監視と計算の両面での効率性により、MinkOccは、キュレートされたデータセットを超えて拡張し、自律運転における3Dセマンティック占有率予測のより広範な現実的な展開を可能にすることを目指している。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。
既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。
OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文 参考訳(メタデータ) (2024-11-06T06:34:27Z) - Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [8.07701188057789]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。
提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。
本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文 参考訳(メタデータ) (2024-08-21T12:13:18Z) - Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving [58.16024314532443]
我々は、異なるLiDARスキャンからレーザービーム操作を統合するフレームワークであるLaserMix++を導入し、データ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。
結果は、LaserMix++が完全に教師付き代替よりも優れており、5倍のアノテーションで同等の精度を実現していることを示している。
この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
論文 参考訳(メタデータ) (2024-05-08T17:59:53Z) - OccFlowNet: Towards Self-supervised Occupancy Estimation via
Differentiable Rendering and Occupancy Flow [0.6577148087211809]
本稿では,2次元ラベルのみを用いたニューラルレイディアンス場(NeRF)による占有率推定手法を提案する。
深度とセマンティックマップの予測や,2次元監視のみに基づく3次元ネットワークのトレーニングには,可変ボリュームレンダリングを用いる。
論文 参考訳(メタデータ) (2024-02-20T08:04:12Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - OVO: Open-Vocabulary Occupancy [12.596828397087085]
セマンティック占有予測は、自律エージェントが3D環境で安全に動作するための周囲の密集した幾何学と意味を推測することを目的としている。
既存の占有率予測手法は,人間の注釈付きボリュームデータに基づいてほぼ完全に訓練されている。
本稿では,任意のクラスの意味的占有を予測できるが,訓練中に3Dアノテーションを必要としない新しい手法であるOpen Vocabulary Occupancy(OVO)を提案する。
論文 参考訳(メタデータ) (2023-05-25T15:07:25Z) - SLPC: a VRNN-based approach for stochastic lidar prediction and
completion in autonomous driving [63.87272273293804]
VRNN(Variiational Recurrent Neural Networks)と呼ばれる生成モデルに基づく新しいLiDAR予測フレームワークを提案する。
提案手法は,フレーム内の奥行きマップを空間的に塗り替えることで,スパースデータを扱う際の従来のビデオ予測フレームワークの限界に対処できる。
VRNNのスパースバージョンとラベルを必要としない効果的な自己監督型トレーニング方法を紹介します。
論文 参考訳(メタデータ) (2021-02-19T11:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。