論文の概要: Fast Occupancy Network
- arxiv url: http://arxiv.org/abs/2412.07163v1
- Date: Tue, 10 Dec 2024 03:46:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:39:00.135285
- Title: Fast Occupancy Network
- Title(参考訳): 高速運転ネットワーク
- Authors: Mingjie Lu, Yuanxian Huang, Ji Liu, Xingliang Huang, Dong Li, Jinzhang Peng, Lu Tian, Emad Barsoum,
- Abstract要約: Occupancy Networkは、エゴ車周辺の特定3次元空間におけるボクセルのカテゴリを予測する。
本稿では, 変形可能な2次元畳み込み層を用いて, BEV機能を3次元ボクセル機能に引き上げる, 単純かつ高速なOccupancy Networkモデルを提案する。
また、計算コストを少なくして性能を向上させるために、効率的なボクセル特徴ピラミッドネットワーク(FPN)モジュールを提案する。
- 参考スコア(独自算出の注目度): 15.759329665907229
- License:
- Abstract: Occupancy Network has recently attracted much attention in autonomous driving. Instead of monocular 3D detection and recent bird's eye view(BEV) models predicting 3D bounding box of obstacles, Occupancy Network predicts the category of voxel in specified 3D space around the ego vehicle via transforming 3D detection task into 3D voxel segmentation task, which has much superiority in tackling category outlier obstacles and providing fine-grained 3D representation. However, existing methods usually require huge computation resources than previous methods, which hinder the Occupancy Network solution applying in intelligent driving systems. To address this problem, we make an analysis of the bottleneck of Occupancy Network inference cost, and present a simple and fast Occupancy Network model, which adopts a deformable 2D convolutional layer to lift BEV feature to 3D voxel feature and presents an efficient voxel feature pyramid network (FPN) module to improve performance with few computational cost. Further, we present a cost-free 2D segmentation branch in perspective view after feature extractors for Occupancy Network during inference phase to improve accuracy. Experimental results demonstrate that our method consistently outperforms existing methods in both accuracy and inference speed, which surpasses recent state-of-the-art (SOTA) OCCNet by 1.7% with ResNet50 backbone with about 3X inference speedup. Furthermore, our method can be easily applied to existing BEV models to transform them into Occupancy Network models.
- Abstract(参考訳): Occupancy Networkは最近、自動運転に多くの注目を集めている。
Occupancy Networkは、モノクロ3D検出と最近の鳥の目視(BEV)モデルで障害物の3Dバウンディングボックスを予測する代わりに、3D検出タスクを3Dボクセルセグメンテーションタスクに変換することで、エゴ車周辺の特定3D空間におけるボクセルのカテゴリを予測する。
しかし、既存の手法は、通常、従来の方法よりも膨大な計算資源を必要とするため、インテリジェントな駆動システムに適用するOccupancy Networkソリューションを妨げている。
この問題に対処するため、Occupancy Network推論コストのボトルネックを分析し、変形可能な2D畳み込み層を採用してBEV特徴を3Dボクセル特徴に引き上げ、計算コストの少ない効率的なボクセル特徴ピラミッドネットワーク(FPN)モジュールを提示する、単純かつ高速なOccupancy Networkモデルを提案する。
さらに,推定フェーズにおけるOccupancy Networkの特徴抽出器による視点ビューにおけるコストフリーな2Dセグメンテーションブランチを提案し,精度を向上する。
実験の結果,提案手法は従来の手法よりも精度と推論速度が優れており,最近のSOTA(State-of-the-art (SOTA) OCCNetを約3倍の高速化でResNet50のバックボーンで1.7%上回っていることがわかった。
さらに、既存のBEVモデルにも容易に適用でき、Occupancy Networkモデルに変換できる。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - DM3D: Distortion-Minimized Weight Pruning for Lossless 3D Object Detection [42.07920565812081]
本稿では,3次元物体検出のための新しいトレーニング後の重み付け手法を提案する。
事前訓練されたモデルにおける冗長パラメータを決定し、局所性と信頼性の両方において最小限の歪みをもたらす。
本フレームワークは,ネットワーク出力の歪みを最小限に抑え,検出精度を最大に維持することを目的とする。
論文 参考訳(メタデータ) (2024-07-02T09:33:32Z) - FastOcc: Accelerating 3D Occupancy Prediction by Fusing the 2D
Bird's-Eye View and Perspective View [46.81548000021799]
自律運転において、3D占有率予測は、より包括的な3Dシーンの理解のために、ボクセル的なステータスとセマンティックラベルを出力する。
近年,ビュートランスフォーメーション技術,地味ラベル生成,精巧なネットワーク設計など,この課題のさまざまな側面を幅広く研究している。
FastOccと呼ばれる新しい手法が提案され、精度を維持しながらモデルを高速化する。
Occ3D-nuScenesベンチマークの実験は、FastOccが高速な推論速度を達成することを示した。
論文 参考訳(メタデータ) (2024-03-05T07:01:53Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - Pillar R-CNN for Point Cloud 3D Object Detection [4.169126928311421]
我々はPillar R-CNNという概念的にシンプルで効果的な2段階の3D検出アーキテクチャを考案した。
我々のPillar R-CNNは、大規模Openデータセット上の最先端の3D検出器に対して好意的に動作します。
自律運転を含むアプリケーションに対するBEVのさらなる認識は、効果的でエレガントなPillar R-CNNアーキテクチャのおかげで可能になった。
論文 参考訳(メタデータ) (2023-02-26T12:07:25Z) - Rethinking Voxelization and Classification for 3D Object Detection [68.8204255655161]
LiDARポイントクラウドからの3Dオブジェクト検出の主な課題は、ネットワークの信頼性に影響を与えることなく、リアルタイムのパフォーマンスを実現することである。
本稿では,高速な動的ボキセラライザを実装することにより,ネットワークの推論速度と精度を同時に向上するソリューションを提案する。
さらに,予測対象を分類し,偽検出対象をフィルタリングする軽量検出サブヘッドモデルを提案する。
論文 参考訳(メタデータ) (2023-01-10T16:22:04Z) - CPGNet: Cascade Point-Grid Fusion Network for Real-Time LiDAR Semantic
Segmentation [8.944151935020992]
本稿では,有効性と効率を両立するカスケードポイントグリッド融合ネットワーク(CPGNet)を提案する。
アンサンブルモデルやTTAのないCPGNetは最先端のRPVNetと同等だが、4.7倍高速である。
論文 参考訳(メタデータ) (2022-04-21T06:56:30Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Generative Sparse Detection Networks for 3D Single-shot Object Detection [43.91336826079574]
3Dオブジェクト検出は、ロボット工学や拡張現実など多くの有望な分野に適用可能であるため、広く研究されている。
しかし、3Dデータのまばらな性質は、このタスクに固有の課題をもたらしている。
本稿では,完全畳み込み単一ショットスパース検出ネットワークであるGenerative Sparse Detection Network (GSDN)を提案する。
論文 参考訳(メタデータ) (2020-06-22T15:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。