論文の概要: FlashOcc: Fast and Memory-Efficient Occupancy Prediction via
Channel-to-Height Plugin
- arxiv url: http://arxiv.org/abs/2311.12058v1
- Date: Sat, 18 Nov 2023 15:28:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 03:52:51.193175
- Title: FlashOcc: Fast and Memory-Efficient Occupancy Prediction via
Channel-to-Height Plugin
- Title(参考訳): FlashOcc:Channel-to-Heightプラグインによる高速かつメモリ効率の良い実行予測
- Authors: Zichen Yu, Changyong Shu, Jiajun Deng, Kangjie Lu, Zongdai Liu,
Jiangyong Yu, Dawei Yang, Hui Li, Yan Chen
- Abstract要約: FlashOCCは、高速かつメモリ効率の高い占有率予測を集約する。
チャネル・ツー・ハイト変換は、BEVから出力ロジットを3次元空間に持ち上げるために導入された。
その結果,従来の最先端手法よりもプラグ・アンド・プレイ・パラダイムが優れていることが実証された。
- 参考スコア(独自算出の注目度): 32.172269679513285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the capability of mitigating the long-tail deficiencies and
intricate-shaped absence prevalent in 3D object detection, occupancy prediction
has become a pivotal component in autonomous driving systems. However, the
procession of three-dimensional voxel-level representations inevitably
introduces large overhead in both memory and computation, obstructing the
deployment of to-date occupancy prediction approaches. In contrast to the trend
of making the model larger and more complicated, we argue that a desirable
framework should be deployment-friendly to diverse chips while maintaining high
precision. To this end, we propose a plug-and-play paradigm, namely FlashOCC,
to consolidate rapid and memory-efficient occupancy prediction while
maintaining high precision. Particularly, our FlashOCC makes two improvements
based on the contemporary voxel-level occupancy prediction approaches. Firstly,
the features are kept in the BEV, enabling the employment of efficient 2D
convolutional layers for feature extraction. Secondly, a channel-to-height
transformation is introduced to lift the output logits from the BEV into the 3D
space. We apply the FlashOCC to diverse occupancy prediction baselines on the
challenging Occ3D-nuScenes benchmarks and conduct extensive experiments to
validate the effectiveness. The results substantiate the superiority of our
plug-and-play paradigm over previous state-of-the-art methods in terms of
precision, runtime efficiency, and memory costs, demonstrating its potential
for deployment. The code will be made available.
- Abstract(参考訳): 3次元物体検出において長い尾の欠損と複雑な形状の欠如を緩和する能力を考えると、占有予測は自律運転システムにおいて重要な要素となっている。
しかし、3次元voxelレベル表現の処理は、必然的にメモリと計算の両方に大きなオーバーヘッドをもたらし、最新の占有予測アプローチの展開を妨げる。
モデルをより大きく、より複雑にする傾向とは対照的に、我々は、望ましいフレームワークは、高い精度を維持しつつ、多様なチップにデプロイしやすいものであるべきであると主張する。
そこで本研究では,高速かつメモリ効率の高い占有率予測を高精度に行うためのプラグイン・アンド・プレイパラダイムflashoccを提案する。
特に,同時代のボクセルレベルの占有率予測に基づく2つの改善を行った。
まず、特徴をbevに保持し、効率的な2次元畳み込み層による特徴抽出を可能にする。
次に、BEVから3次元空間に出力ロジットを持ち上げるために、チャネル対高さ変換を導入する。
我々は,Occ3D-nuScenesベンチマークに基づいて,FlashOCCを多様な占有率予測基準に適用し,その有効性を検証した。
その結果、従来の最先端手法よりも精度、実行効率、メモリコストの面で、プラグイン・アンド・プレイ・パラダイムの優位性を実証し、デプロイの可能性を示している。
コードは利用可能になります。
関連論文リスト
- Spatiotemporal Decoupling for Efficient Vision-Based Occupancy Forecasting [18.933451243989452]
既存の3次元占有予測手法は、可動物体の空間的詳細性を予測するのに苦労する。
本稿では,このバイアスに明示的に対処し,効果的な3次元OCFを実現するための新しいビジョンベースパラダイムを提案する。
我々は,時間的に疎結合な表現で3次元OCFを実現するために,効率的なマルチヘッドネットワークネットワークであるEfficientOCFを開発した。
論文 参考訳(メタデータ) (2024-11-21T14:27:15Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。
既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。
OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文 参考訳(メタデータ) (2024-11-06T06:34:27Z) - PCF-Lift: Panoptic Lifting by Probabilistic Contrastive Fusion [80.79938369319152]
我々は,PCF(Probabilis-tic Contrastive Fusion)に基づくPCF-Liftという新しいパイプラインを設計する。
私たちのPCFリフトは、ScanNetデータセットやMessy Roomデータセット(シーンレベルのPQが4.4%改善)など、広く使用されているベンチマークにおいて、最先端の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T16:06:59Z) - UltimateDO: An Efficient Framework to Marry Occupancy Prediction with 3D Object Detection via Channel2height [2.975860548186652]
現代の自律運転システムでは、作業と3Dオブジェクト検出が標準的な2つのタスクである。
高速な3次元物体検出と占有予測(UltimateDO)を実現する手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T13:14:13Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - AdaOcc: Adaptive Forward View Transformation and Flow Modeling for 3D Occupancy and Flow Prediction [56.72301849123049]
CVPR 2024 における nuScenes Open-Occ データセットチャレンジにおいて,視覚中心の3次元活動とフロー予測トラックのソリューションを提案する。
我々の革新的なアプローチは、適応的なフォワード・ビュー・トランスフォーメーションとフロー・モデリングを取り入れることで、3次元の占有率とフロー予測を向上させる2段階のフレームワークである。
提案手法は回帰と分類を組み合わせることで,様々な場面におけるスケールの変動に対処し,予測フローを利用して将来のフレームに現行のボクセル特徴をワープする。
論文 参考訳(メタデータ) (2024-07-01T16:32:15Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。