Fugu-MT 論文翻訳(概要): FB-OCC: 3D Occupancy Prediction based on Forward-Backward View Transformation

論文の概要: FB-OCC: 3D Occupancy Prediction based on Forward-Backward View Transformation

arxiv url: http://arxiv.org/abs/2307.01492v1
Date: Tue, 4 Jul 2023 05:55:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-06 18:06:58.903542
Title: FB-OCC: 3D Occupancy Prediction based on Forward-Backward View Transformation
Title（参考訳）: FB-OCC: 前向き視点変換に基づく3次元活動予測
Authors: Zhiqi Li, Zhiding Yu, David Austin, Mingsheng Fang, Shiyi Lan, Jan Kautz, Jose M. Alvarez
Abstract要約: FB-BEVは前方投影を用いた近縁カメラを用いた鳥眼視知覚設計である。設計と最適化の結果、最先端のmIoUスコアはnuScenesデータセットで54.19%となり、チャレンジトラックで1位となった。
参考スコア（独自算出の注目度）: 79.41536932037822
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This technical report summarizes the winning solution for the 3D Occupancy Prediction Challenge, which is held in conjunction with the CVPR 2023 Workshop on End-to-End Autonomous Driving and CVPR 23 Workshop on Vision-Centric Autonomous Driving Workshop. Our proposed solution FB-OCC builds upon FB-BEV, a cutting-edge camera-based bird's-eye view perception design using forward-backward projection. On top of FB-BEV, we further study novel designs and optimization tailored to the 3D occupancy prediction task, including joint depth-semantic pre-training, joint voxel-BEV representation, model scaling up, and effective post-processing strategies. These designs and optimization result in a state-of-the-art mIoU score of 54.19% on the nuScenes dataset, ranking the 1st place in the challenge track. Code and models will be released at: https://github.com/NVlabs/FB-BEV.
Abstract（参考訳）: 本報告は, エンド・ツー・エンド自動運転に関するcvpr 2023ワークショップと, 視覚中心自律運転ワークショップに関するcvpr 23ワークショップと共同で開催されている3次元占有予測チャレンジの勝利ソリューションを要約する。提案したFB-OCCは,前方投影を用いた最先端カメラを用いた鳥眼視認識設計であるFB-BEVに基づいている。 fb-bev 上に,3次元占有率予測タスクに合わせた新しい設計と最適化についてさらに検討し,共同学習,voxel-bev表現,モデルのスケールアップ,効果的な後処理戦略について検討した。これらの設計と最適化により、最新のmIoUスコアはnuScenesデータセットで54.19%となり、チャレンジトラックで1位となった。コードとモデルはhttps://github.com/nvlabs/fb-bevでリリースされる。

関連論文リスト

An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training [50.71892161377806]
DFIT-OccWorldは、分離されたダイナミックフローとイメージアシストトレーニング戦略を活用する、効率的な3D占有世界モデルである。提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
論文参考訳（メタデータ） (2024-12-18T12:10:33Z)
AdaOcc: Adaptive Forward View Transformation and Flow Modeling for 3D Occupancy and Flow Prediction [56.72301849123049]
CVPR 2024 における nuScenes Open-Occ データセットチャレンジにおいて,視覚中心の3次元活動とフロー予測トラックのソリューションを提案する。我々の革新的なアプローチは、適応的なフォワード・ビュー・トランスフォーメーションとフロー・モデリングを取り入れることで、3次元の占有率とフロー予測を向上させる2段階のフレームワークである。提案手法は回帰と分類を組み合わせることで,様々な場面におけるスケールの変動に対処し,予測フローを利用して将来のフレームに現行のボクセル特徴をワープする。
論文参考訳（メタデータ） (2024-07-01T16:32:15Z)
End-to-End Autonomous Driving without Costly Modularization and 3D Manual Annotation [34.070813293944944]
視覚に基づくエンドツーエンド自動運転(E2EAD)のためのUADを提案する。私たちのモチベーションは、現在のE2EADモデルが依然として典型的な駆動スタックのモジュラーアーキテクチャを模倣していることに起因しています。我々のUADは、NUScenesにおける平均衝突速度において、UniADに対して38.7%の相対的な改善を達成し、CARLAのCown05 Longベンチマークの駆動スコアにおいて、VADを41.32ポイント上回っている。
論文参考訳（メタデータ） (2024-06-25T16:12:52Z)
BEVSpread: Spread Voxel Pooling for Bird's-Eye-View Representation in Vision-based Roadside 3D Object Detection [47.74067616658986]
視覚に基づく道路沿いの3D物体検出は、自律運転領域で注目を集めている。この知見に触発されて,BEVSpreadと呼ばれる新しいボクセルプール方式を提案する。 BeVSpreadは既存のフラストタルベースのBEV法の性能を大幅に向上させることができる。
論文参考訳（メタデータ） (2024-06-13T03:33:36Z)
OccFeat: Self-supervised Occupancy Feature Prediction for Pretraining BEV Segmentation Networks [75.10231099007494]
本稿では,Bird's-Eye-View(BEV)セグメンテーションネットワークのための,OccFeatと呼ばれる自己教師付き事前学習手法を提案する。 OccFeatでは、占有率予測と特徴蒸留タスクを介して、BEVネットワークを事前訓練する。本手法で事前訓練したモデルでは,特に低データシナリオにおいて,BEVセマンティックセマンティックセマンティクスの性能が向上した。
論文参考訳（メタデータ） (2024-04-22T09:43:03Z)
OccTransformer: Improving BEVFormer for 3D camera-only occupancy prediction [32.17406995216123]
OccTransformer」はCVPR 2023の自動運転チャレンジにおける3D占有予測トラックに使用される。提案手法は強力なベースラインBEVFormer上に構築され, 単純かつ効果的な手法によって性能を向上させる。これらの手法を用いて,自律走行課題における3D占有率予測トラックにおいて49.23 miouを達成した。
論文参考訳（メタデータ） (2024-02-28T08:03:34Z)
RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文参考訳（メタデータ） (2023-12-19T03:39:56Z)
Instance-aware Multi-Camera 3D Object Detection with Structural Priors Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文参考訳（メタデータ） (2023-12-13T09:24:42Z)
Towards Efficient 3D Object Detection in Bird's-Eye-View Space for Autonomous Driving: A Convolutional-Only Approach [13.513005108086006]
BEVENetと呼ばれるBEVベースの効率的な3D検出フレームワークを提案する。 BEVENetは、NuScenesチャレンジに対する現代の最先端(SOTA)アプローチよりも3$times$高速である。実験の結果,BEVENetは現代の最先端(SOTA)アプローチよりも3$times$高速であることがわかった。
論文参考訳（メタデータ） (2023-12-01T14:52:59Z)
UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering [27.712689811093362]
我々は、ビジョン中心の3D占有率予測トラックにUniOCCというソリューションを提示する。我々のソリューションは、単一のモデルで公式のリーダーボード上で51.27% mIoUを達成した。
論文参考訳（メタデータ） (2023-06-15T13:23:57Z)
BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。 BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-26T11:16:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。