論文の概要: An Efficient Transformer for Simultaneous Learning of BEV and Lane
Representations in 3D Lane Detection
- arxiv url: http://arxiv.org/abs/2306.04927v1
- Date: Thu, 8 Jun 2023 04:18:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 16:25:20.049550
- Title: An Efficient Transformer for Simultaneous Learning of BEV and Lane
Representations in 3D Lane Detection
- Title(参考訳): 3次元レーン検出におけるbevとレーン表現の同時学習のための効率的なトランスフォーマー
- Authors: Ziye Chen, Kate Smith-Miles, Bo Du, Guoqi Qian, Mingming Gong
- Abstract要約: 3次元車線検出のための効率的な変圧器を提案する。
バニラ変圧器と異なり、我々のモデルは車線とBEVの表現を同時に学習するクロスアテンション機構を含んでいる。
本手法は,2次元および3次元の車線特徴を画像ビューとBEVの特徴にそれぞれ適用することにより,2次元および3次元車線予測を実現する。
- 参考スコア(独自算出の注目度): 55.281369497158515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately detecting lane lines in 3D space is crucial for autonomous
driving. Existing methods usually first transform image-view features into
bird-eye-view (BEV) by aid of inverse perspective mapping (IPM), and then
detect lane lines based on the BEV features. However, IPM ignores the changes
in road height, leading to inaccurate view transformations. Additionally, the
two separate stages of the process can cause cumulative errors and increased
complexity. To address these limitations, we propose an efficient transformer
for 3D lane detection. Different from the vanilla transformer, our model
contains a decomposed cross-attention mechanism to simultaneously learn lane
and BEV representations. The mechanism decomposes the cross-attention between
image-view and BEV features into the one between image-view and lane features,
and the one between lane and BEV features, both of which are supervised with
ground-truth lane lines. Our method obtains 2D and 3D lane predictions by
applying the lane features to the image-view and BEV features, respectively.
This allows for a more accurate view transformation than IPM-based methods, as
the view transformation is learned from data with a supervised cross-attention.
Additionally, the cross-attention between lane and BEV features enables them to
adjust to each other, resulting in more accurate lane detection than the two
separate stages. Finally, the decomposed cross-attention is more efficient than
the original one. Experimental results on OpenLane and ONCE-3DLanes demonstrate
the state-of-the-art performance of our method.
- Abstract(参考訳): 3D空間における車線を正確に検出することは、自動運転に不可欠である。
既存の手法は通常、逆視点マッピング(IPM)の助けを借りて、画像ビュー機能を鳥眼ビュー(BEV)に変換し、BEVの特徴に基づいて車線を検出する。
しかし、IPMは道路の高さの変化を無視し、不正確なビュー変換をもたらす。
さらに、プロセスの2つの別々の段階は累積誤差と複雑さの増大を引き起こす可能性がある。
これらの制約に対処するため,我々は3次元レーン検出のための効率的な変圧器を提案する。
バニラ変圧器とは異なり、このモデルは車線とbev表現を同時に学習する分解クロスアテンション機構を含んでいる。
この機構は、画像ビューとBEVの特徴間の交差注意を、画像ビューと車線特徴間のものと、車線とBEV特徴間のものとに分解する。
本手法は,2次元および3次元のレーン特性を画像ビューとBEVの特徴にそれぞれ適用することにより予測する。
これにより、教師付きクロスアテンションを持つデータからビュートランスフォーメーションが学習されるため、ipmベースのメソッドよりも正確なビュートランスフォーメーションが可能になる。
さらに、レーンとbevの相互接続によって相互に調整が可能となり、2つの異なるステージよりも正確なレーン検出が可能になる。
最後に、分解されたクロスアテンションは元のものよりも効率的である。
OpenLane と ONCE-3DLanes の実験結果から,本手法の最先端性能が示された。
関連論文リスト
- DV-3DLane: End-to-end Multi-modal 3D Lane Detection with Dual-view Representation [40.71071200694655]
DV-3DLaneは、新しいエンドツーエンドDual-Viewマルチモーダル3Dレーン検出フレームワークである。
画像とLiDAR点の両方の強度を相乗化する。
最先端のパフォーマンスを実現し、F1スコアが11.2、エラーが53.5%減少している。
論文 参考訳(メタデータ) (2024-06-23T10:48:42Z) - CurveFormer++: 3D Lane Detection by Curve Propagation with Temporal
Curve Queries and Attention [6.337799395191661]
画像特徴ビュー変換モジュールを必要としない単一ステージのTransformerベースのCurveFormer++を提案する。
Transformerデコーダを使用することで、3Dレーン検出結果を反復的に洗練することができる。
実世界の2つの公開データセット上での3次元車線検出タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2024-02-09T14:13:40Z) - Decoupling the Curve Modeling and Pavement Regression for Lane Detection [67.22629246312283]
曲線に基づく車線表現は多くの車線検出法で一般的な手法である。
本稿では,曲線モデルと地上高さ回帰という2つの部分に分解することで,車線検出タスクに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-19T11:24:14Z) - Multi-camera Bird's Eye View Perception for Autonomous Driving [17.834495597639805]
他のエージェントや構造の空間的推論を可能にするためには、3Dで知覚出力を生成することが不可欠である。
カメラ画像から所望のBEV表現を達成するための最も基本的なアプローチは、平らな地面を仮定してIPMである。
近年のアプローチでは、ディープニューラルネットワークを使用してBEV空間を直接出力している。
論文 参考訳(メタデータ) (2023-09-16T19:12:05Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Online Lane Graph Extraction from Onboard Video [133.68032636906133]
オンボードカメラからの映像ストリームを、周囲のレーングラフのオンライン抽出に使用しています。
入力が1つの画像ではなくビデオを使うことは、異なるタイムステップからの情報を組み合わせることのメリットと課題の両方をもたらす。
提案手法の1つのモデルでは、1つを含む任意の数の画像を処理し、正確なレーングラフを生成することができる。
論文 参考訳(メタデータ) (2023-04-03T12:36:39Z) - Anchor3DLane: Learning to Regress 3D Anchors for Monocular 3D Lane
Detection [35.797350813519756]
深度情報がないため,単分子式3次元車線検出は難しい課題である。
本稿では,FV表現から直接3次元車線を予測するために,Anchor3DLaneというBEVフリー手法を提案する。
論文 参考訳(メタデータ) (2023-01-06T04:35:31Z) - CurveFormer: 3D Lane Detection by Curve Propagation with Curve Queries
and Attention [3.330270927081078]
3Dレーン検出は、自動運転システムにとって不可欠な部分である。
以前のCNNとTransformerベースの手法は、通常、フロントビューイメージから鳥の目視(BEV)特徴マップを生成する。
単段トランスフォーマーを用いた3次元レーンパラメータの直接計算法であるCurveFormerを提案する。
論文 参考訳(メタデータ) (2022-09-16T14:54:57Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - PersFormer: 3D Lane Detection via Perspective Transformer and the
OpenLane Benchmark [109.03773439461615]
PersFormerは、新しいトランスフォーマーベースの空間特徴変換モジュールを備えた、エンドツーエンドのモノクル3Dレーン検出器である。
高品質なアノテーションとシナリオの多様性を備えたOpenLaneと呼ばれる,最初の大規模な3Dレーンデータセットの1つをリリースしました。
論文 参考訳(メタデータ) (2022-03-21T16:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。