論文の概要: Efficient and Robust 2D-to-BEV Representation Learning via
Geometry-guided Kernel Transformer
- arxiv url: http://arxiv.org/abs/2206.04584v1
- Date: Thu, 9 Jun 2022 16:05:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 14:40:13.932797
- Title: Efficient and Robust 2D-to-BEV Representation Learning via
Geometry-guided Kernel Transformer
- Title(参考訳): Geometry-Guided Kernel Transformer を用いた効率的な2D-to-BEV表現学習
- Authors: Shaoyu Chen and Tianheng Cheng and Xinggang Wang and Wenming Meng and
Qian Zhang and Wenyu Liu
- Abstract要約: 本稿では,新しい2D-BEV表現学習機構であるGeometry-Guided Kernel Transformer (GKT)を提案する。
GKTは、3090 GPUで72.3ドルFPS、2080ti GPUで45.6ドルFPSで動作でき、カメラの偏差とBEVの高さに対して堅牢である。
GKT は nuScenes val 集合上で38.0 mIoU (100m$times $100m perception range at a 0.5m resolution) という最先端のリアルタイムセグメンテーション結果を達成する。
- 参考スコア(独自算出の注目度): 32.09067970140447
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning Bird's Eye View (BEV) representation from surrounding-view cameras
is of great importance for autonomous driving. In this work, we propose a
Geometry-guided Kernel Transformer (GKT), a novel 2D-to-BEV representation
learning mechanism. GKT leverages the geometric priors to guide the transformer
to focus on discriminative regions and unfolds kernel features to generate BEV
representation. For fast inference, we further introduce a look-up table (LUT)
indexing method to get rid of the camera's calibrated parameters at runtime.
GKT can run at $72.3$ FPS on 3090 GPU / $45.6$ FPS on 2080ti GPU and is robust
to the camera deviation and the predefined BEV height. And GKT achieves the
state-of-the-art real-time segmentation results, i.e., 38.0 mIoU
(100m$\times$100m perception range at a 0.5m resolution) on the nuScenes val
set. Given the efficiency, effectiveness, and robustness, GKT has great
practical values in autopilot scenarios, especially for real-time running
systems. Code and models will be available at
\url{https://github.com/hustvl/GKT}.
- Abstract(参考訳): 周囲カメラからの鳥の目視(bev)表現を学習することは、自動運転にとって非常に重要である。
本研究では,新しい2D-to-BEV表現学習機構であるGeometry-Guided Kernel Transformer (GKT)を提案する。
GKTは幾何学的先行情報を利用してトランスフォーマーを識別領域に集中させ、カーネル機能を展開してBEV表現を生成する。
高速な推論のために、我々はさらに、カメラのキャリブレーションパラメータを実行時に取り除くためにルックアップテーブル(lut)インデックスメソッドを導入します。
GKTは、3090 GPUで72.3ドルFPS、2080ti GPUで45.6ドルFPSで動作でき、カメラの偏差とBEVの高さに対して堅牢である。
GKT は nuScenes val 集合上で38.0 mIoU (100m$\times$100m の知覚範囲) という最先端のリアルタイムセグメンテーション結果を達成する。
効率性、有効性、堅牢性を考えると、gktはオートパイロットシナリオ、特にリアルタイム実行システムにおいて、非常に実用的な価値を持っている。
コードとモデルは \url{https://github.com/hustvl/GKT} で入手できる。
関連論文リスト
- Camera Calibration through Geometric Constraints from Rotation and
Projection Matrices [4.100632594106989]
本稿では,カメラの内在的・外在的パラメータを測定するための制約に基づく新たな損失を提案する。
我々の手法は、ニューラルネットワークの学習能力を利用して、望ましいパラメータを推定するハイブリッドアプローチである。
提案手法は,最新のSOTA(State-of-the-art)ベンチマークと比較して,全パラメータにまたがる改善を示す。
論文 参考訳(メタデータ) (2024-02-13T13:07:34Z) - WidthFormer: Toward Efficient Transformer-based BEV View Transformation [23.055953867959744]
WidthFormerは計算効率が高く、堅牢で、デプロイに特別なエンジニアリング作業を必要としない。
本稿では,3次元幾何情報を正確にカプセル化できる新しい3次元位置符号化機構を提案する。
私たちのモデルは極めて効率的です。例えば、256タイムの704ドルの入力イメージを使用すると、NVIDIA 3090 GPUとHorizon Journey-5ソリューションで1.5ミリ秒と2.8ミリ秒のレイテンシを実現します。
論文 参考訳(メタデータ) (2024-01-08T11:50:23Z) - U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based
Relocalization [86.63465798307728]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。
Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。
本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文 参考訳(メタデータ) (2023-10-20T18:57:38Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - Fast-BEV: A Fast and Strong Bird's-Eye View Perception Baseline [85.41904025352513]
Bird's-Eye View (BEV)の表現は、次世代自動運転車(AV)の認識の基礎として期待されている。
本稿では,車載チップ上で高速なBEV認識を実現するフレームワークであるFast-BEVを提案する。
論文 参考訳(メタデータ) (2023-01-29T18:43:31Z) - Multi-Camera Calibration Free BEV Representation for 3D Object Detection [8.085831393926561]
我々は,頑健なBird's Eye View (BEV) 表現のための完全マルチカメラフリートランス (CFT) を提案する。
CFTが設計した位置認識強化(PA)を介してBEVの3D情報をマイニングする
CFTは、カメラパラメータを除去する最初の作業であるnuScenes検出タスクリーダーボードで49.7%のNDSを達成した。
論文 参考訳(メタデータ) (2022-10-31T12:18:08Z) - Semantic Segmentation for Autonomous Driving: Model Evaluation, Dataset
Generation, Perspective Comparison, and Real-Time Capability [0.0]
FasterSegは、自動運転車の低消費電力(組み込み)デバイスでリアルタイムに使用できるほど高速である。
1対1で320倍256$のインプットで、FasterSegは$65.44,%の平均インターセクション(mIoU)を達成した。
鳥の視線から320倍256ドルを入力するために、FasterSegは64.08,% mIoUを達成している。
論文 参考訳(メタデータ) (2022-07-26T14:45:44Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View
Representation [116.6111047218081]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - BEVDetNet: Bird's Eye View LiDAR Point Cloud based Real-time 3D Object
Detection for Autonomous Driving [6.389322215324224]
キーポイント,ボックス予測,方向予測を用いたオブジェクト中心検出のための単一統一モデルとして,新しいセマンティックセマンティックセマンティクスアーキテクチャを提案する。
提案されたアーキテクチャは簡単に拡張でき、追加の計算なしで Road のようなセマンティックセグメンテーションクラスを含めることができる。
モデルは、KITTIデータセット上のIoU=0.5の平均精度で2%の最小精度の劣化で、他のトップ精度モデルよりも5倍高速です。
論文 参考訳(メタデータ) (2021-04-21T22:06:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。