論文の概要: OccTransformer: Improving BEVFormer for 3D camera-only occupancy
prediction
- arxiv url: http://arxiv.org/abs/2402.18140v1
- Date: Wed, 28 Feb 2024 08:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 15:57:47.262646
- Title: OccTransformer: Improving BEVFormer for 3D camera-only occupancy
prediction
- Title(参考訳): OccTransformer:3Dカメラのみの占有予測のためのBEVFormerの改良
- Authors: Jian Liu, Sipeng Zhang, Chuixin Kong, Wenyuan Zhang, Yuhang Wu, Yikang
Ding, Borun Xu, Ruibo Ming, Donglai Wei, Xianming Liu
- Abstract要約: OccTransformer」はCVPR 2023の自動運転チャレンジにおける3D占有予測トラックに使用される。
提案手法は強力なベースラインBEVFormer上に構築され, 単純かつ効果的な手法によって性能を向上させる。
これらの手法を用いて,自律走行課題における3D占有率予測トラックにおいて49.23 miouを達成した。
- 参考スコア(独自算出の注目度): 32.17406995216123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report presents our solution, "occTransformer" for the 3D
occupancy prediction track in the autonomous driving challenge at CVPR 2023.
Our method builds upon the strong baseline BEVFormer and improves its
performance through several simple yet effective techniques. Firstly, we
employed data augmentation to increase the diversity of the training data and
improve the model's generalization ability. Secondly, we used a strong image
backbone to extract more informative features from the input data. Thirdly, we
incorporated a 3D unet head to better capture the spatial information of the
scene. Fourthly, we added more loss functions to better optimize the model.
Additionally, we used an ensemble approach with the occ model BevDet and
SurroundOcc to further improve the performance. Most importantly, we integrated
3D detection model StreamPETR to enhance the model's ability to detect objects
in the scene. Using these methods, our solution achieved 49.23 miou on the 3D
occupancy prediction track in the autonomous driving challenge.
- Abstract(参考訳): 本技術報告では,CVPR 2023における自動運転チャレンジにおける3次元占有予測トラックの「occTransformer」について述べる。
提案手法は強力なベースラインBEVFormer上に構築され, 単純かつ効果的な手法によって性能を向上させる。
まず、トレーニングデータの多様性を高め、モデルの一般化能力を向上させるためにデータ拡張を用いた。
次に,入力データからより詳細な特徴を抽出するために,強い画像バックボーンを用いた。
第3に,シーンの空間情報をよりよく捉えるために3Dアンセットヘッドを組み込んだ。
第4に、モデルを最適化するための損失関数を追加しました。
さらに私たちは,OccモデルであるBevDetとSurroundOccのアンサンブルアプローチを使用して,パフォーマンスをさらに向上しました。
最も重要なことは、3D検出モデルStreamPETRを統合して、シーン内のオブジェクトを検出するモデルの能力を高めました。
これらの手法を用いて,自動運転課題における3次元占有予測トラック上で49.23miouを達成した。
関連論文リスト
- WidthFormer: Toward Efficient Transformer-based BEV View Transformation [21.10523575080856]
WidthFormerは、リアルタイム自動運転アプリケーションのためのマルチビューカメラからBirdのEye-View(BEV)表現を計算するトランスフォーマーベースのモジュールである。
まず,3次元幾何情報を正確にカプセル化できる新しい3次元位置符号化機構を提案する。
次に,特徴圧縮による潜在的な情報損失を補償する2つのモジュールを開発する。
論文 参考訳(メタデータ) (2024-01-08T11:50:23Z) - An Efficient Wide-Range Pseudo-3D Vehicle Detection Using A Single
Camera [10.573423265001706]
本稿では,1台のカメラからの画像に基づく広帯域Pseudo-3D車両検出手法を提案する。
擬似3次元物体を検出するために,本モデルは特別に設計された検出ヘッドを採用する。
オブジェクトボックスとSPLを併用した共同制約損失はモデルトレーニング時に設計され、モデルの効率、安定性、予測精度が向上する。
論文 参考訳(メタデータ) (2023-09-15T12:50:09Z) - FB-OCC: 3D Occupancy Prediction based on Forward-Backward View
Transformation [79.41536932037822]
FB-BEVは前方投影を用いた近縁カメラを用いた鳥眼視知覚設計である。
設計と最適化の結果、最先端のmIoUスコアはnuScenesデータセットで54.19%となり、チャレンジトラックで1位となった。
論文 参考訳(メタデータ) (2023-07-04T05:55:54Z) - Collaboration Helps Camera Overtake LiDAR in 3D Detection [49.58433319402405]
カメラのみの3D検出は、LiDARベースの検出システムと比較して、オブジェクトを3D空間にローカライズするための簡単なソリューションを提供する。
提案するコラボレーティブカメラのみの3D検出(CoCa3D)により,エージェントは通信を通じて相互に補完情報を共有できる。
その結果、CoCa3Dは従来のSOTA性能をDAIR-V2Xで44.21%改善し、OPV2V+で30.60%、AP@70でCoPerception-UAVs+で12.59%向上した。
論文 参考訳(メタデータ) (2023-03-23T03:50:41Z) - 3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。
まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。
そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文 参考訳(メタデータ) (2023-03-18T05:51:05Z) - T3VIP: Transformation-based 3D Video Prediction [49.178585201673364]
本稿では,シーンを対象部品に分解することで3次元動きを明示的にモデル化する3次元映像予測手法を提案する。
我々のモデルは、完全に教師なしであり、現実世界の性質を捉え、画像と点のクラウド領域における観察の手がかりがその学習信号を構成する。
我々の知る限り、我々のモデルは、静止カメラの未来をRGB-Dビデオで予測する最初の生成モデルである。
論文 参考訳(メタデータ) (2022-09-19T15:01:09Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z) - Improving 3D Object Detection through Progressive Population Based
Augmentation [91.56261177665762]
本稿では3次元オブジェクト検出のためのデータ拡張ポリシーの設計を自動化するための最初の試みを示す。
このアルゴリズムは,探索空間を狭め,過去の反復で発見された最良のパラメータを採用することで,拡張戦略の最適化を学習する。
PPBAは, 拡張のないベースライン3次元検出モデルよりも最大10倍のデータ効率が高く, ラベル付きモデルよりもはるかに少ない精度で3次元検出モデルが競合精度を達成できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-04-02T05:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。