論文の概要: FastOcc: Accelerating 3D Occupancy Prediction by Fusing the 2D
Bird's-Eye View and Perspective View
- arxiv url: http://arxiv.org/abs/2403.02710v1
- Date: Tue, 5 Mar 2024 07:01:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 15:47:41.109535
- Title: FastOcc: Accelerating 3D Occupancy Prediction by Fusing the 2D
Bird's-Eye View and Perspective View
- Title(参考訳): fastocc:2d鳥の目視と遠近視を利用した3次元占有率予測の高速化
- Authors: Jiawei Hou, Xiaoyan Li, Wenhao Guan, Gang Zhang, Di Feng, Yuheng Du,
Xiangyang Xue, Jian Pu
- Abstract要約: 自律運転において、3D占有率予測は、より包括的な3Dシーンの理解のために、ボクセル的なステータスとセマンティックラベルを出力する。
近年,ビュートランスフォーメーション技術,地味ラベル生成,精巧なネットワーク設計など,この課題のさまざまな側面を幅広く研究している。
FastOccと呼ばれる新しい手法が提案され、精度を維持しながらモデルを高速化する。
Occ3D-nuScenesベンチマークの実験は、FastOccが高速な推論速度を達成することを示した。
- 参考スコア(独自算出の注目度): 46.81548000021799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In autonomous driving, 3D occupancy prediction outputs voxel-wise status and
semantic labels for more comprehensive understandings of 3D scenes compared
with traditional perception tasks, such as 3D object detection and bird's-eye
view (BEV) semantic segmentation. Recent researchers have extensively explored
various aspects of this task, including view transformation techniques,
ground-truth label generation, and elaborate network design, aiming to achieve
superior performance. However, the inference speed, crucial for running on an
autonomous vehicle, is neglected. To this end, a new method, dubbed FastOcc, is
proposed. By carefully analyzing the network effect and latency from four
parts, including the input image resolution, image backbone, view
transformation, and occupancy prediction head, it is found that the occupancy
prediction head holds considerable potential for accelerating the model while
keeping its accuracy. Targeted at improving this component, the time-consuming
3D convolution network is replaced with a novel residual-like architecture,
where features are mainly digested by a lightweight 2D BEV convolution network
and compensated by integrating the 3D voxel features interpolated from the
original image features. Experiments on the Occ3D-nuScenes benchmark
demonstrate that our FastOcc achieves state-of-the-art results with a fast
inference speed.
- Abstract(参考訳): 自律運転において、3D占有率予測は、従来の3Dオブジェクト検出や鳥の目視(BEV)セマンティックセグメンテーションのような認識タスクと比較して、3Dシーンのより包括的な理解のために、ボクセル的なステータスとセマンティックラベルを出力する。
最近の研究者は、ビュー変換技術、接地ラベル生成、優れたパフォーマンスを達成するための精巧なネットワーク設計など、このタスクの様々な側面を調査している。
しかし、自動運転車で走る上で重要な推論速度は無視されている。
この目的のためにFastOccと呼ばれる新しい手法が提案されている。
入力画像解像度、画像バックボーン、ビュートランスフォーメーション、占有率予測ヘッドを含む4つの部分からネットワーク効果と遅延を慎重に解析することにより、占有率予測ヘッドはその精度を保ちながらモデルを加速するかなりのポテンシャルを有することがわかった。
このコンポーネントの改善を目的として、時間を要する3D畳み込みネットワークを新しい残像型アーキテクチャに置き換える。これにより、特徴は主に軽量な2D BEV畳み込みネットワークによって消化され、元の画像特徴から補足された3Dボクセル機能を統合することで補償される。
Occ3D-nuScenesベンチマークの実験は、FastOccが高速な推論速度で最先端の結果を達成することを示した。
関連論文リスト
- HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras [45.739224968302565]
本稿では,マルチタスク3次元知覚のためのHENetというエンドツーエンドフレームワークを提案する。
具体的には,短期フレーム用大画像エンコーダと長期フレーム用小画像エンコーダを用いたハイブリッド画像エンコーダを提案する。
各認識タスクの特徴により、異なるグリッドサイズのBEV機能、独立したBEVエンコーダ、タスクデコーダを異なるタスクに活用する。
論文 参考訳(メタデータ) (2024-04-03T07:10:18Z) - Unified Spatio-Temporal Tri-Perspective View Representation for 3D Semantic Occupancy Prediction [6.527178779672975]
本研究では,時間的コヒーレントな3次元セマンティック占有予測のためのアーキテクチャ2TPVFormerを提案する。
我々は、新しい時間的相互視ハイブリッドアテンション機構を用いて、時間的手がかりを組み込むことにより、事前のプロセスを豊かにする。
実験により,3次元セマンティック・アクシデンシーにおける平均節間差は4.1%改善した。
論文 参考訳(メタデータ) (2024-01-24T20:06:59Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - CVFNet: Real-time 3D Object Detection by Learning Cross View Features [11.402076835949824]
CVFNetと呼ばれるリアルタイムビューベースの1段3Dオブジェクト検出器を提案する。
本稿ではまず,複数の段階において,ポイント・アンド・レンジ・ビュー機能を深く統合した新しいポイント・ラウンジ機能融合モジュールを提案する。
次に, 得られた深度視点特徴を鳥の目視に変換する際に, 3次元形状を良好に維持する特別のスライスピラーを設計する。
論文 参考訳(メタデータ) (2022-03-13T06:23:18Z) - Improving 3D Object Detection with Channel-wise Transformer [58.668922561622466]
我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。
CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。
これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
論文 参考訳(メタデータ) (2021-08-23T02:03:40Z) - Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion
Forecasting with a Single Convolutional Net [93.51773847125014]
本研究では,3Dセンサが捉えたデータを用いて,3D検出,追跡,動作予測を共同で推論する,新たなディープニューラルネットワークを提案する。
鳥の眼球を3次元の世界として表現し,空間と時間にまたがる3次元畳み込みを行う。
論文 参考訳(メタデータ) (2020-12-22T22:43:35Z) - Searching Efficient 3D Architectures with Sparse Point-Voxel Convolution [34.713667358316286]
自動運転車は安全に運転するために、3Dシーンを効率的に正確に理解する必要がある。
既存の3次元知覚モデルは、低解像度のボキセル化とアグレッシブなダウンサンプリングのために、小さなインスタンスを十分に認識できない。
Sparse Point-Voxel Convolution (SPVConv) は,バニラ・スパース・コンボリューションを高分解能な点ベース分岐に装備する軽量な3次元モジュールである。
論文 参考訳(メタデータ) (2020-07-31T14:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。