論文の概要: EFFOcc: A Minimal Baseline for EFficient Fusion-based 3D Occupancy Network
- arxiv url: http://arxiv.org/abs/2406.07042v1
- Date: Tue, 11 Jun 2024 08:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 16:54:22.873682
- Title: EFFOcc: A Minimal Baseline for EFficient Fusion-based 3D Occupancy Network
- Title(参考訳): EFFOcc:Effcient Fusionベースの3D Occupancy Networkのための最小ベースライン
- Authors: Yining Shi, Kun Jiang, Ke Wang, Kangan Qian, Yunlong Wang, Jiusi Li, Tuopu Wen, Mengmeng Yang, Yiliang Xu, Diange Yang,
- Abstract要約: 既存の3D占有ネットワーク(occnets)は、計算的に重く、ラベルの空白である。
本稿では,最先端の精度を達成しつつ,ネットワークの複雑さとラベル要件の最小化を目標とした,効率的な3d占有ネットワーク(EFFOcc)を提案する。
- 参考スコア(独自算出の注目度): 14.798733498419935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D occupancy prediction (Occ) is a rapidly rising challenging perception task in the field of autonomous driving which represents the driving scene as uniformly partitioned 3D voxel grids with semantics. Compared to 3D object detection, grid perception has great advantage of better recognizing irregularly shaped, unknown category, or partially occluded general objects. However, existing 3D occupancy networks (occnets) are both computationally heavy and label-hungry. In terms of model complexity, occnets are commonly composed of heavy Conv3D modules or transformers on the voxel level. In terms of label annotations requirements, occnets are supervised with large-scale expensive dense voxel labels. Model and data inefficiency, caused by excessive network parameters and label annotations requirement, severely hinder the onboard deployment of occnets. This paper proposes an efficient 3d occupancy network (EFFOcc), that targets the minimal network complexity and label requirement while achieving state-of-the-art accuracy. EFFOcc only uses simple 2D operators, and improves Occ accuracy to the state-of-the-art on multiple large-scale benchmarks: Occ3D-nuScenes, Occ3D-Waymo, and OpenOccupancy-nuScenes. On Occ3D-nuScenes benchmark, EFFOcc has only 18.4M parameters, and achieves 50.46 in terms of mean IoU (mIoU), to our knowledge, it is the occnet with minimal parameters compared with related occnets. Moreover, we propose a two-stage active learning strategy to reduce the requirements of labelled data. Active EFFOcc trained with 6\% labelled voxels achieves 47.19 mIoU, which is 95.7% fully supervised performance. The proposed EFFOcc also supports improved vision-only occupancy prediction with the aid of region-decomposed distillation. Code and demo videos will be available at https://github.com/synsin0/EFFOcc.
- Abstract(参考訳): 3D占有予測(Occ)は、運転シーンを意味を持った一様分割された3Dボクセルグリッドとして表現する自律運転分野において、急速に困難な認識課題である。
3次元物体検出と比較して、格子知覚は不規則な形状、未知のカテゴリー、あるいは部分的に隠蔽された一般物体をよりよく認識する利点がある。
しかし、既存の3D占有ネットワーク(occnets)は計算的に重く、ラベルの空白である。
モデル複雑性の観点では、occnetは一般に重いConv3Dモジュールまたはボクセルレベルのトランスフォーマーで構成されている。
ラベルアノテーションの要件に関しては、Occnetは大規模で高価な高密度のボクセルラベルで管理されている。
過剰なネットワークパラメータとラベルアノテーションの要求によって引き起こされるモデルとデータ非効率は、Occnetのオンボード展開を著しく妨げます。
本稿では,最先端の精度を達成しつつ,ネットワークの複雑さとラベル要件を最小限に抑える,効率的な3d占有ネットワーク(EFFOcc)を提案する。
EFFOccは単純な2D演算子のみを使用し、Occの精度をOcc3D-nuScenes、Occ3D-Waymo、OpenOccupancy-nuScenesといった大規模ベンチマークの最先端に改善する。
Occ3D-nuScenesベンチマークでは、EFFOccは18.4Mのパラメータしか持たず、我々の知る限り、平均IoU(mIoU)で50.46となる。
さらに,ラベル付きデータの要求量を削減するための2段階のアクティブラーニング戦略を提案する。
6\%のラベル付きボクセルでトレーニングされたアクティブEFFOccは47.19 mIoUを達成した。
提案したEFFOccは、地域分割蒸留の助けを借りて、視覚のみの占有率予測の改善もサポートしている。
コードとデモビデオはhttps://github.com/synsin0/EFFOcc.comで入手できる。
関連論文リスト
- ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding [51.509115746992165]
我々はARKit LabelMakerを紹介した。これは、密集したセマンティックアノテーションを備えた、最初の大規模で現実世界の3Dデータセットである。
また,3次元セマンティックセグメンテーションモデルを用いて,ScanNetおよびScanNet200データセットの最先端性能を推し進める。
論文 参考訳(メタデータ) (2024-10-17T14:44:35Z) - OccRWKV: Rethinking Efficient 3D Semantic Occupancy Prediction with Linear Complexity [11.287721740276048]
3次元セマンティック占有予測ネットワークは,3次元シーンの幾何学的および意味的構造を再構築する際,顕著な能力を示した。
我々は、RWKV(Receptance Weighted Key Value)にインスパイアされた効率的なセマンティック占有ネットワークOccRWKVを紹介する。
OccRWKVはセマンティクス、占有予測、特徴融合を分離し、それぞれSem-RWKVとGeo-RWKVブロックを組み込む。
論文 参考訳(メタデータ) (2024-09-30T06:27:50Z) - Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - Towards Label-free Scene Understanding by Vision Foundation Models [87.13117617056004]
ネットワークがラベル付きデータなしで2Dおよび3D世界を理解できるようにするためのビジョン基盤モデルの可能性について検討する。
本稿では,CLIPとSAMの強度を利用して2次元ネットワークと3次元ネットワークを同時に監視するクロスモダリティ・ノイズ・スーパービジョン(CNS)手法を提案する。
我々の2Dネットワークと3Dネットワークは、ScanNet上で28.4%と33.5%のmIoUでラベルなしセマンティックセグメンテーションを実現し、それぞれ4.7%と7.9%を改善した。
論文 参考訳(メタデータ) (2023-06-06T17:57:49Z) - Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous
Driving [34.368848580725576]
我々は,任意のシーンに対して,濃密で可視性に配慮したラベルを生成するラベル生成パイプラインを開発した。
このパイプラインは、ボクセルの密度化、推論、画像誘導ボクセル精製の3段階からなる。
我々は、Occ3Dベンチマークにおいて優れた性能を示すCTF-Occネットワークと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2023-04-27T17:40:08Z) - OccFormer: Dual-path Transformer for Vision-based 3D Semantic Occupancy
Prediction [16.66987810790077]
OccFormerは、意味的占有予測のために3Dボリュームを処理するデュアルパストランスフォーマーネットワークである。
カメラが生成する3Dボクセル機能の長距離、ダイナミック、効率的なエンコーディングを実現している。
論文 参考訳(メタデータ) (2023-04-11T16:15:50Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - 3DVerifier: Efficient Robustness Verification for 3D Point Cloud Models [17.487852393066458]
既存のポイントクラウドモデルの検証手法は,大規模ネットワーク上で時間的・計算的に実現不可能である。
本稿では,2つの問題に対処する3DVerifierを提案し,線形緩和関数を適用して乗算層を結合し,前方と後方の伝搬を結合する。
提案手法は,大規模ネットワークにおける検証効率のオーダー・オブ・マグニチュード向上を実現し,得られた認証境界も最先端の検証器よりもかなり厳密である。
論文 参考訳(メタデータ) (2022-07-15T15:31:16Z) - End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection [62.34374949726333]
擬似LiDAR(PL)は、LiDARセンサに基づく手法と安価なステレオカメラに基づく手法の精度ギャップを劇的に減らした。
PLは最先端のディープニューラルネットワークと2D深度マップ出力を3Dポイントクラウド入力に変換することで3Dオブジェクト検出のための3D深度推定を組み合わせている。
我々は、PLパイプライン全体をエンドツーエンドにトレーニングできるように、差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを導入します。
論文 参考訳(メタデータ) (2020-04-07T02:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。