論文の概要: BEVSegFormer: Bird's Eye View Semantic Segmentation From Arbitrary
Camera Rigs
- arxiv url: http://arxiv.org/abs/2203.04050v1
- Date: Tue, 8 Mar 2022 12:39:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 15:22:18.217602
- Title: BEVSegFormer: Bird's Eye View Semantic Segmentation From Arbitrary
Camera Rigs
- Title(参考訳): bevsegformer: 任意のカメラリグからの鳥の目視意味セグメンテーション
- Authors: Lang Peng, Zhirong Chen, Zhangjie Fu, Pengpeng Liang, Erkang Cheng
- Abstract要約: 任意のカメラリグからのBEVセマンティックセマンティックセグメンテーションのための効果的なトランスフォーマーベース手法を提案する。
具体的には、まず任意のカメラから画像の特徴を共有バックボーンで符号化する。
BEV-to-imageビュー変換を行うために、効率的なマルチカメラ変形型アテンションユニットを設計する。
- 参考スコア(独自算出の注目度): 3.5728676902207988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation in bird's eye view (BEV) is an important task for
autonomous driving. Though this task has attracted a large amount of research
efforts, it is still challenging to flexibly cope with arbitrary (single or
multiple) camera sensors equipped on the autonomous vehicle. In this paper, we
present BEVSegFormer, an effective transformer-based method for BEV semantic
segmentation from arbitrary camera rigs. Specifically, our method first encodes
image features from arbitrary cameras with a shared backbone. These image
features are then enhanced by a deformable transformer-based encoder. Moreover,
we introduce a BEV transformer decoder module to parse BEV semantic
segmentation results. An efficient multi-camera deformable attention unit is
designed to carry out the BEV-to-image view transformation. Finally, the
queries are reshaped according the layout of grids in the BEV, and upsampled to
produce the semantic segmentation result in a supervised manner. We evaluate
the proposed algorithm on the public nuScenes dataset and a self-collected
dataset. Experimental results show that our method achieves promising
performance on BEV semantic segmentation from arbitrary camera rigs. We also
demonstrate the effectiveness of each component via ablation study.
- Abstract(参考訳): 鳥眼ビュー(BEV)におけるセマンティックセグメンテーションは自律運転において重要な課題である。
このタスクは多くの研究努力を惹きつけているが、自動運転車に搭載された任意の(単一のまたは複数の)カメラセンサーに柔軟に対応することは依然として困難である。
本稿では、任意のカメラリグからBEVセマンティックセマンティックセグメンテーションを効果的に変換するBEVSegFormerを提案する。
具体的には、まず任意のカメラから画像の特徴を共有バックボーンで符号化する。
これらの画像機能は、変形可能なトランスフォーマベースのエンコーダによって拡張される。
さらに,BEVセマンティックセグメンテーション結果を解析するために,BEVトランスフォーマーデコーダモジュールを導入する。
BEV-to-imageビュー変換を行うために、効率的なマルチカメラ変形型アテンションユニットを設計する。
最後に、クエリは、BEV内のグリッドのレイアウトに従ってリフォームされ、セマンティックセグメンテーションを生成するためにアップサンプリングされる。
提案アルゴリズムは,公開nuScenesデータセットと自己コンパイルデータセットを用いて評価する。
実験結果から,任意のカメラリグからのBEVセマンティックセグメンテーションにおける有望な性能が得られた。
また,各成分のアブレーション試験による有効性を示す。
関連論文リスト
- OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation [57.2213693781672]
Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。
本稿では,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。
提案手法は,車両セグメンテーションのためのnuScenesデータセットにおいて,最先端の成果を大きなマージンで達成する。
論文 参考訳(メタデータ) (2024-07-18T03:48:22Z) - Improving Bird's Eye View Semantic Segmentation by Task Decomposition [42.57351039508863]
元のBEVセグメンテーションタスクを,BEVマップ再構成とRGB-BEV機能アライメントという2つの段階に分割する。
我々のアプローチは、知覚と生成を異なるステップに組み合わせることの複雑さを単純化し、複雑で挑戦的なシーンを効果的に扱うためのモデルを構築します。
論文 参考訳(メタデータ) (2024-04-02T13:19:45Z) - Semi-Supervised Learning for Visual Bird's Eye View Semantic
Segmentation [16.3996408206659]
トレーニング中にラベルのない画像を活用することで性能を向上させるために,視覚的BEVセマンティックセマンティックセマンティックセマンティクスのための新しい半教師付きフレームワークを提案する。
次に、ラベルのないデータを完全に利用する一貫性損失を提案し、セマンティックな予測だけでなく、BEV機能にもモデルを制約する。
nuScenesとArgoverseデータセットの実験により、我々のフレームワークは予測精度を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2023-08-28T12:23:36Z) - SA-BEV: Generating Semantic-Aware Bird's-Eye-View Feature for Multi-view
3D Object Detection [46.92706423094971]
画像特徴のセマンティックセグメンテーションに応じて背景情報をフィルタリングするセマンティック・アウェア・BEVプール(SA-BEVPool)を提案する。
また、セマンティック・アウェアのBEV機能と密接にマッチする効果的なデータ拡張戦略であるBEV-Pasteを提案する。
nuScenesの実験では、SA-BEVが最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2023-07-21T10:28:19Z) - A Cross-Scale Hierarchical Transformer with Correspondence-Augmented
Attention for inferring Bird's-Eye-View Semantic Segmentation [13.013635162859108]
マルチカメラビュー画像に条件付きBEVセマンティックセマンティックセマンティクスを推定することは、安価なデバイスとリアルタイム処理としてコミュニティで人気がある。
セマンティックセグメンテーション推論のための対応強化された注目度を持つ新しいクロススケール階層変換器を提案する。
マルチカメラビュー画像上でのBEVセマンティックセマンティックセグメンテーションの推測における最先端性能を有する。
論文 参考訳(メタデータ) (2023-04-07T13:52:47Z) - From a Bird's Eye View to See: Joint Camera and Subject Registration without the Camera Calibration [20.733451121484993]
我々は, カメラキャリブレーションを伴わない鳥眼ビュー(BEV)において, マルチビューカメラと対象登録の新たな課題に取り組む。
マルチパーソンシーンに対して、異なるファーストパーソンビュー(FPV)からの複数のRGBイメージが入力されるだけであるため、これは非常に難しい問題である。
本稿では,この問題を解決するためのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-19T08:31:08Z) - Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。
BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文 参考訳(メタデータ) (2022-09-12T15:29:13Z) - LaRa: Latents and Rays for Multi-Camera Bird's-Eye-View Semantic
Segmentation [43.12994451281451]
複数のカメラからの車両セマンティックセグメンテーションのための効率的なエンコーダデコーダである'LaRa'を提案する。
我々のアプローチは、複数のセンサーにまたがる情報を、コンパクトでリッチな潜在表現の集合に集約するクロスアテンションシステムを用いています。
論文 参考訳(メタデータ) (2022-06-27T13:37:50Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。