論文の概要: EFFOcc: Learning Efficient Occupancy Networks from Minimal Labels for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2406.07042v2
- Date: Tue, 08 Apr 2025 03:47:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:26:32.373660
- Title: EFFOcc: Learning Efficient Occupancy Networks from Minimal Labels for Autonomous Driving
- Title(参考訳): EFFOcc: 自動運転のための最小ラベルから効率的な運用ネットワークを学習する
- Authors: Yining Shi, Kun Jiang, Jinyu Miao, Ke Wang, Kangan Qian, Yunlong Wang, Jiusi Li, Tuopu Wen, Mengmeng Yang, Yiliang Xu, Diange Yang,
- Abstract要約: 既存の3D占有ネットワーク(OccNet)は、計算的に重く、ラベルの空白である。
本稿では,ネットワークの複雑さとラベル要求を最小限に抑えるEFFccという,EFFicient Occupancy学習フレームワークを提案する。
占有ベンチマークの実験では、融合ベースとビジョンベースの両方のOccNetの最先端の精度が示されている。
- 参考スコア(独自算出の注目度): 14.87106773416327
- License:
- Abstract: 3D occupancy prediction (3DOcc) is a rapidly rising and challenging perception task in the field of autonomous driving. Existing 3D occupancy networks (OccNets) are both computationally heavy and label-hungry. In terms of model complexity, OccNets are commonly composed of heavy Conv3D modules or transformers at the voxel level. Moreover, OccNets are supervised with expensive large-scale dense voxel labels. Model and data inefficiencies, caused by excessive network parameters and label annotation requirements, severely hinder the onboard deployment of OccNets. This paper proposes an EFFicient Occupancy learning framework, EFFOcc, that targets minimal network complexity and label requirements while achieving state-of-the-art accuracy. We first propose an efficient fusion-based OccNet that only uses simple 2D operators and improves accuracy to the state-of-the-art on three large-scale benchmarks: Occ3D-nuScenes, Occ3D-Waymo, and OpenOccupancy-nuScenes. On the Occ3D-nuScenes benchmark, the fusion-based model with ResNet-18 as the image backbone has 21.35M parameters and achieves 51.49 in terms of mean Intersection over Union (mIoU). Furthermore, we propose a multi-stage occupancy-oriented distillation to efficiently transfer knowledge to vision-only OccNet. Extensive experiments on occupancy benchmarks show state-of-the-art precision for both fusion-based and vision-based OccNets. For the demonstration of learning with limited labels, we achieve 94.38\% of the performance (mIoU = 28.38) of a 100\% labeled vision OccNet (mIoU = 30.07) using the same OccNet trained with only 40\% labeled sequences and distillation from the fusion-based OccNet.
- Abstract(参考訳): 3D占有予測(3DOcc)は、自律運転の分野で急速に増加し、挑戦的な認識課題である。
既存の3D占有ネットワーク(OccNet)は、計算的に重く、ラベルの空白である。
モデル複雑性の観点では、OccNetは一般的に重いConv3Dモジュールまたはボクセルレベルでのトランスフォーマーで構成されている。
さらに、OccNetは高価な大規模密度のボクセルラベルで管理されている。
過剰なネットワークパラメータとラベルのアノテーション要求によって引き起こされるモデルとデータ非効率は、OccNetの配備を著しく妨げます。
本稿では,最先端の精度を達成しつつ,最小限のネットワーク複雑性とラベル要件を目標としたEFFcc(EFFicient Occupancy Learning framework)を提案する。
まず,Occ3D-nuScenes,Occ3D-Waymo,OpenOccupancy-nuScenesの3つの大規模ベンチマークにおいて,単純な2D演算子のみを用いた効率的な融合ベースのOccNetを提案する。
Occ3D-nuScenesベンチマークでは、イメージバックボーンとしてのResNet-18との融合ベースのモデルは21.35Mパラメータを持ち、平均インターセクションオーバーユニオン(mIoU)で51.49に達する。
さらに,視覚のみのOccNetに知識を効率よく伝達する多段階占有型蒸留法を提案する。
占有率ベンチマークに関する大規模な実験は、融合ベースとビジョンベースの両方のOccNetの最先端の精度を示している。
限定ラベルを用いた学習のデモンストレーションでは,100\%のラベル付きビジョンOccNet(mIoU = 30.07)のパフォーマンス94.38\%(mIoU = 28.38)を達成する。
関連論文リスト
- GaussRender: Learning 3D Occupancy with Gaussian Rendering [84.60008381280286]
GaussRenderは、Voxelベースの監視を強化する3Dから2Dへのプラグアンドプレイのリジェクション損失である。
提案手法は, 任意の2次元視点に3次元ボクセル表現を投影し, ガウススプラッティングをボクセルの効率的かつ微分可能なレンダリングプロキシとして活用する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - Fast Occupancy Network [15.759329665907229]
Occupancy Networkは、エゴ車周辺の特定3次元空間におけるボクセルのカテゴリを予測する。
本稿では, 変形可能な2次元畳み込み層を用いて, BEV機能を3次元ボクセル機能に引き上げる, 単純かつ高速なOccupancy Networkモデルを提案する。
また、計算コストを少なくして性能を向上させるために、効率的なボクセル特徴ピラミッドネットワーク(FPN)モジュールを提案する。
論文 参考訳(メタデータ) (2024-12-10T03:46:03Z) - ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding [51.509115746992165]
我々はARKit LabelMakerを紹介した。これは、密集したセマンティックアノテーションを備えた、最初の大規模で現実世界の3Dデータセットである。
また,3次元セマンティックセグメンテーションモデルを用いて,ScanNetおよびScanNet200データセットの最先端性能を推し進める。
論文 参考訳(メタデータ) (2024-10-17T14:44:35Z) - OccRWKV: Rethinking Efficient 3D Semantic Occupancy Prediction with Linear Complexity [11.287721740276048]
3次元セマンティック占有予測ネットワークは,3次元シーンの幾何学的および意味的構造を再構築する際,顕著な能力を示した。
我々は、RWKV(Receptance Weighted Key Value)にインスパイアされた効率的なセマンティック占有ネットワークOccRWKVを紹介する。
OccRWKVはセマンティクス、占有予測、特徴融合を分離し、それぞれSem-RWKVとGeo-RWKVブロックを組み込む。
論文 参考訳(メタデータ) (2024-09-30T06:27:50Z) - Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - Towards Label-free Scene Understanding by Vision Foundation Models [87.13117617056004]
ネットワークがラベル付きデータなしで2Dおよび3D世界を理解できるようにするためのビジョン基盤モデルの可能性について検討する。
本稿では,CLIPとSAMの強度を利用して2次元ネットワークと3次元ネットワークを同時に監視するクロスモダリティ・ノイズ・スーパービジョン(CNS)手法を提案する。
我々の2Dネットワークと3Dネットワークは、ScanNet上で28.4%と33.5%のmIoUでラベルなしセマンティックセグメンテーションを実現し、それぞれ4.7%と7.9%を改善した。
論文 参考訳(メタデータ) (2023-06-06T17:57:49Z) - Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous
Driving [34.368848580725576]
我々は,任意のシーンに対して,濃密で可視性に配慮したラベルを生成するラベル生成パイプラインを開発した。
このパイプラインは、ボクセルの密度化、推論、画像誘導ボクセル精製の3段階からなる。
我々は、Occ3Dベンチマークにおいて優れた性能を示すCTF-Occネットワークと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2023-04-27T17:40:08Z) - OccFormer: Dual-path Transformer for Vision-based 3D Semantic Occupancy
Prediction [16.66987810790077]
OccFormerは、意味的占有予測のために3Dボリュームを処理するデュアルパストランスフォーマーネットワークである。
カメラが生成する3Dボクセル機能の長距離、ダイナミック、効率的なエンコーディングを実現している。
論文 参考訳(メタデータ) (2023-04-11T16:15:50Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - 3DVerifier: Efficient Robustness Verification for 3D Point Cloud Models [17.487852393066458]
既存のポイントクラウドモデルの検証手法は,大規模ネットワーク上で時間的・計算的に実現不可能である。
本稿では,2つの問題に対処する3DVerifierを提案し,線形緩和関数を適用して乗算層を結合し,前方と後方の伝搬を結合する。
提案手法は,大規模ネットワークにおける検証効率のオーダー・オブ・マグニチュード向上を実現し,得られた認証境界も最先端の検証器よりもかなり厳密である。
論文 参考訳(メタデータ) (2022-07-15T15:31:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。