論文の概要: FlashOcc: Fast and Memory-Efficient Occupancy Prediction via
Channel-to-Height Plugin
- arxiv url: http://arxiv.org/abs/2311.12058v1
- Date: Sat, 18 Nov 2023 15:28:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 03:52:51.193175
- Title: FlashOcc: Fast and Memory-Efficient Occupancy Prediction via
Channel-to-Height Plugin
- Title(参考訳): FlashOcc:Channel-to-Heightプラグインによる高速かつメモリ効率の良い実行予測
- Authors: Zichen Yu, Changyong Shu, Jiajun Deng, Kangjie Lu, Zongdai Liu,
Jiangyong Yu, Dawei Yang, Hui Li, Yan Chen
- Abstract要約: FlashOCCは、高速かつメモリ効率の高い占有率予測を集約する。
チャネル・ツー・ハイト変換は、BEVから出力ロジットを3次元空間に持ち上げるために導入された。
その結果,従来の最先端手法よりもプラグ・アンド・プレイ・パラダイムが優れていることが実証された。
- 参考スコア(独自算出の注目度): 32.172269679513285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the capability of mitigating the long-tail deficiencies and
intricate-shaped absence prevalent in 3D object detection, occupancy prediction
has become a pivotal component in autonomous driving systems. However, the
procession of three-dimensional voxel-level representations inevitably
introduces large overhead in both memory and computation, obstructing the
deployment of to-date occupancy prediction approaches. In contrast to the trend
of making the model larger and more complicated, we argue that a desirable
framework should be deployment-friendly to diverse chips while maintaining high
precision. To this end, we propose a plug-and-play paradigm, namely FlashOCC,
to consolidate rapid and memory-efficient occupancy prediction while
maintaining high precision. Particularly, our FlashOCC makes two improvements
based on the contemporary voxel-level occupancy prediction approaches. Firstly,
the features are kept in the BEV, enabling the employment of efficient 2D
convolutional layers for feature extraction. Secondly, a channel-to-height
transformation is introduced to lift the output logits from the BEV into the 3D
space. We apply the FlashOCC to diverse occupancy prediction baselines on the
challenging Occ3D-nuScenes benchmarks and conduct extensive experiments to
validate the effectiveness. The results substantiate the superiority of our
plug-and-play paradigm over previous state-of-the-art methods in terms of
precision, runtime efficiency, and memory costs, demonstrating its potential
for deployment. The code will be made available.
- Abstract(参考訳): 3次元物体検出において長い尾の欠損と複雑な形状の欠如を緩和する能力を考えると、占有予測は自律運転システムにおいて重要な要素となっている。
しかし、3次元voxelレベル表現の処理は、必然的にメモリと計算の両方に大きなオーバーヘッドをもたらし、最新の占有予測アプローチの展開を妨げる。
モデルをより大きく、より複雑にする傾向とは対照的に、我々は、望ましいフレームワークは、高い精度を維持しつつ、多様なチップにデプロイしやすいものであるべきであると主張する。
そこで本研究では,高速かつメモリ効率の高い占有率予測を高精度に行うためのプラグイン・アンド・プレイパラダイムflashoccを提案する。
特に,同時代のボクセルレベルの占有率予測に基づく2つの改善を行った。
まず、特徴をbevに保持し、効率的な2次元畳み込み層による特徴抽出を可能にする。
次に、BEVから3次元空間に出力ロジットを持ち上げるために、チャネル対高さ変換を導入する。
我々は,Occ3D-nuScenesベンチマークに基づいて,FlashOCCを多様な占有率予測基準に適用し,その有効性を検証した。
その結果、従来の最先端手法よりも精度、実行効率、メモリコストの面で、プラグイン・アンド・プレイ・パラダイムの優位性を実証し、デプロイの可能性を示している。
コードは利用可能になります。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
メソッドは直接3Dアノテーションを必要とせずに堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - FastOcc: Accelerating 3D Occupancy Prediction by Fusing the 2D
Bird's-Eye View and Perspective View [46.81548000021799]
自律運転において、3D占有率予測は、より包括的な3Dシーンの理解のために、ボクセル的なステータスとセマンティックラベルを出力する。
近年,ビュートランスフォーメーション技術,地味ラベル生成,精巧なネットワーク設計など,この課題のさまざまな側面を幅広く研究している。
FastOccと呼ばれる新しい手法が提案され、精度を維持しながらモデルを高速化する。
Occ3D-nuScenesベンチマークの実験は、FastOccが高速な推論速度を達成することを示した。
論文 参考訳(メタデータ) (2024-03-05T07:01:53Z) - S^2Former-OR: Single-Stage Bimodal Transformer for Scene Graph
Generation in OR [52.964721233679406]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に、ポーズ推定とオブジェクト検出を伴う中間プロセスに依存するセマンティックシーングラフを生成する多段階学習に依存してきた。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGの単一段バイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - OccFlowNet: Towards Self-supervised Occupancy Estimation via
Differentiable Rendering and Occupancy Flow [0.6577148087211809]
本稿では,2次元ラベルのみを用いたニューラルレイディアンス場(NeRF)による占有率推定手法を提案する。
深度とセマンティックマップの予測や,2次元監視のみに基づく3次元ネットワークのトレーニングには,可変ボリュームレンダリングを用いる。
論文 参考訳(メタデータ) (2024-02-20T08:04:12Z) - PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - Autoregressive Uncertainty Modeling for 3D Bounding Box Prediction [63.3021778885906]
3Dバウンディングボックスは、多くのコンピュータビジョンアプリケーションで広く使われている中間表現である。
本稿では,自己回帰モデルを利用して高い信頼度予測と意味のある不確実性対策を行う手法を提案する。
我々はシミュレーションデータセットであるCOB-3Dをリリースし、現実世界のロボティクスアプリケーションで発生する新しいタイプのあいまいさを強調します。
論文 参考訳(メタデータ) (2022-10-13T23:57:40Z) - BEVDetNet: Bird's Eye View LiDAR Point Cloud based Real-time 3D Object
Detection for Autonomous Driving [6.389322215324224]
キーポイント,ボックス予測,方向予測を用いたオブジェクト中心検出のための単一統一モデルとして,新しいセマンティックセマンティックセマンティクスアーキテクチャを提案する。
提案されたアーキテクチャは簡単に拡張でき、追加の計算なしで Road のようなセマンティックセグメンテーションクラスを含めることができる。
モデルは、KITTIデータセット上のIoU=0.5の平均精度で2%の最小精度の劣化で、他のトップ精度モデルよりも5倍高速です。
論文 参考訳(メタデータ) (2021-04-21T22:06:39Z) - EDNet: Efficient Disparity Estimation with Cost Volume Combination and
Attention-based Spatial Residual [17.638034176859932]
既存の分散度推定は、主に4D結合ボリュームを活用し、分散回帰のための非常に深い3D畳み込みニューラルネットワーク(CNN)を構築する。
本稿では,EDNetというネットワークを効率よく分散推定する手法を提案する。
Scene FlowとKITTIデータセットの実験は、EDNetが以前の3D CNNベースの作業より優れていることを示している。
論文 参考訳(メタデータ) (2020-10-26T04:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。