論文の概要: Efficient and Robust 2D-to-BEV Representation Learning via
Geometry-guided Kernel Transformer
- arxiv url: http://arxiv.org/abs/2206.04584v1
- Date: Thu, 9 Jun 2022 16:05:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 14:40:13.932797
- Title: Efficient and Robust 2D-to-BEV Representation Learning via
Geometry-guided Kernel Transformer
- Title(参考訳): Geometry-Guided Kernel Transformer を用いた効率的な2D-to-BEV表現学習
- Authors: Shaoyu Chen and Tianheng Cheng and Xinggang Wang and Wenming Meng and
Qian Zhang and Wenyu Liu
- Abstract要約: 本稿では,新しい2D-BEV表現学習機構であるGeometry-Guided Kernel Transformer (GKT)を提案する。
GKTは、3090 GPUで72.3ドルFPS、2080ti GPUで45.6ドルFPSで動作でき、カメラの偏差とBEVの高さに対して堅牢である。
GKT は nuScenes val 集合上で38.0 mIoU (100m$times $100m perception range at a 0.5m resolution) という最先端のリアルタイムセグメンテーション結果を達成する。
- 参考スコア(独自算出の注目度): 32.09067970140447
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning Bird's Eye View (BEV) representation from surrounding-view cameras
is of great importance for autonomous driving. In this work, we propose a
Geometry-guided Kernel Transformer (GKT), a novel 2D-to-BEV representation
learning mechanism. GKT leverages the geometric priors to guide the transformer
to focus on discriminative regions and unfolds kernel features to generate BEV
representation. For fast inference, we further introduce a look-up table (LUT)
indexing method to get rid of the camera's calibrated parameters at runtime.
GKT can run at $72.3$ FPS on 3090 GPU / $45.6$ FPS on 2080ti GPU and is robust
to the camera deviation and the predefined BEV height. And GKT achieves the
state-of-the-art real-time segmentation results, i.e., 38.0 mIoU
(100m$\times$100m perception range at a 0.5m resolution) on the nuScenes val
set. Given the efficiency, effectiveness, and robustness, GKT has great
practical values in autopilot scenarios, especially for real-time running
systems. Code and models will be available at
\url{https://github.com/hustvl/GKT}.
- Abstract(参考訳): 周囲カメラからの鳥の目視(bev)表現を学習することは、自動運転にとって非常に重要である。
本研究では,新しい2D-to-BEV表現学習機構であるGeometry-Guided Kernel Transformer (GKT)を提案する。
GKTは幾何学的先行情報を利用してトランスフォーマーを識別領域に集中させ、カーネル機能を展開してBEV表現を生成する。
高速な推論のために、我々はさらに、カメラのキャリブレーションパラメータを実行時に取り除くためにルックアップテーブル(lut)インデックスメソッドを導入します。
GKTは、3090 GPUで72.3ドルFPS、2080ti GPUで45.6ドルFPSで動作でき、カメラの偏差とBEVの高さに対して堅牢である。
GKT は nuScenes val 集合上で38.0 mIoU (100m$\times$100m の知覚範囲) という最先端のリアルタイムセグメンテーション結果を達成する。
効率性、有効性、堅牢性を考えると、gktはオートパイロットシナリオ、特にリアルタイム実行システムにおいて、非常に実用的な価値を持っている。
コードとモデルは \url{https://github.com/hustvl/GKT} で入手できる。
関連論文リスト
- Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglement [8.592248643229675]
運転予測は自律運転(AD)において重要な役割を担っている
既存の手法はしばしば高い計算コストを発生させるが、これはADのリアルタイム要求と矛盾する。
ハイブリッドBEV-Voxel表現を用いた幾何学的意味的デュアルブランチネットワーク(GSDBN)を提案する。
論文 参考訳(メタデータ) (2024-07-18T04:46:13Z) - ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention [33.00435765051738]
我々は、Gated Linear Attention (GLA) を視覚に導入し、その優れたハードウェア認識と効率を活用している。
提案するモデルであるViGは、ImageNetおよび下流タスクにおける精度、パラメータ、FLOPの良好なトレードオフを提供する。
ViG-Tは5.2$times$より少ないFLOPを使用し、90%のGPUメモリを節約し、4.8$times$高速に動作し、DeiT-Tよりも20.7%高いトップ1精度を達成する。
論文 参考訳(メタデータ) (2024-05-28T17:59:21Z) - Camera Calibration through Geometric Constraints from Rotation and
Projection Matrices [4.100632594106989]
本稿では,カメラの内在的・外在的パラメータを測定するための制約に基づく新たな損失を提案する。
我々の手法は、ニューラルネットワークの学習能力を利用して、望ましいパラメータを推定するハイブリッドアプローチである。
提案手法は,最新のSOTA(State-of-the-art)ベンチマークと比較して,全パラメータにまたがる改善を示す。
論文 参考訳(メタデータ) (2024-02-13T13:07:34Z) - WidthFormer: Toward Efficient Transformer-based BEV View Transformation [21.10523575080856]
WidthFormerは、リアルタイム自動運転アプリケーションのためのマルチビューカメラからBirdのEye-View(BEV)表現を計算するトランスフォーマーベースのモジュールである。
まず,3次元幾何情報を正確にカプセル化できる新しい3次元位置符号化機構を提案する。
次に,特徴圧縮による潜在的な情報損失を補償する2つのモジュールを開発する。
論文 参考訳(メタデータ) (2024-01-08T11:50:23Z) - U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization [81.76044207714637]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。
Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。
本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文 参考訳(メタデータ) (2023-10-20T18:57:38Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - Fast-BEV: A Fast and Strong Bird's-Eye View Perception Baseline [76.48192454417138]
Bird's-Eye View (BEV)の表現は、次世代自動運転車(AV)の認識の基礎として期待されている。
本稿では,車載チップ上で高速なBEV認識を実現するフレームワークであるFast-BEVを提案する。
論文 参考訳(メタデータ) (2023-01-29T18:43:31Z) - Semantic Segmentation for Autonomous Driving: Model Evaluation, Dataset
Generation, Perspective Comparison, and Real-Time Capability [0.0]
FasterSegは、自動運転車の低消費電力(組み込み)デバイスでリアルタイムに使用できるほど高速である。
1対1で320倍256$のインプットで、FasterSegは$65.44,%の平均インターセクション(mIoU)を達成した。
鳥の視線から320倍256ドルを入力するために、FasterSegは64.08,% mIoUを達成している。
論文 参考訳(メタデータ) (2022-07-26T14:45:44Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。