論文の概要: LATR: 3D Lane Detection from Monocular Images with Transformer
- arxiv url: http://arxiv.org/abs/2308.04583v1
- Date: Tue, 8 Aug 2023 21:08:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 16:00:19.658821
- Title: LATR: 3D Lane Detection from Monocular Images with Transformer
- Title(参考訳): LATR:トランスを用いた単眼画像からの3次元レーン検出
- Authors: Yueru Luo, Chaoda Zheng, Xu Yan, Tang Kun, Chao Zheng, Shuguang Cui,
Zhen Li
- Abstract要約: 単眼画像からの3次元車線検出は、自動運転の基本的な課題である。
最近の進歩は、前面画像の特徴とカメラパラメータから構築された構造的な3Dサロゲートに依存している。
本稿では, 3D-aware front-view機能を用いた3次元車線検出システムであるLATRモデルを提案する。
- 参考スコア(独自算出の注目度): 31.382946760566384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D lane detection from monocular images is a fundamental yet challenging task
in autonomous driving. Recent advances primarily rely on structural 3D
surrogates (e.g., bird's eye view) that are built from front-view image
features and camera parameters. However, the depth ambiguity in monocular
images inevitably causes misalignment between the constructed surrogate feature
map and the original image, posing a great challenge for accurate lane
detection. To address the above issue, we present a novel LATR model, an
end-to-end 3D lane detector that uses 3D-aware front-view features without
transformed view representation. Specifically, LATR detects 3D lanes via
cross-attention based on query and key-value pairs, constructed using our
lane-aware query generator and dynamic 3D ground positional embedding. On the
one hand, each query is generated based on 2D lane-aware features and adopts a
hybrid embedding to enhance the lane information. On the other hand, 3D space
information is injected as positional embedding from an iteratively-updated 3D
ground plane. LATR outperforms previous state-of-the-art methods on both
synthetic Apollo and realistic OpenLane by large margins (e.g., 11.4 gains in
terms of F1 score on OpenLane). Code will be released at
https://github.com/JMoonr/LATR.
- Abstract(参考訳): 単眼画像からの3次元車線検出は、自動運転の基本的な課題である。
最近の進歩は主に、フロントビューの画像特徴とカメラパラメータから構築された構造的な3dサロゲート(鳥の目視など)に依存している。
しかし, 単眼画像の奥行きの曖昧さは, 構築したサロゲート特徴写像と原画像との相違を必然的に引き起こし, 正確な車線検出には大きな課題となる。
上記の課題に対処するため, 3D 対応のフロントビュー特徴を用いた3次元レーン検出システムである LATR モデルを提案する。
具体的には、LATRはクエリとキーと値のペアに基づいて3次元レーンを検出し、車線対応クエリジェネレータと動的3次元地上位置埋め込みを用いて構築する。
一方、各クエリは2dレーン認識機能に基づいて生成され、レーン情報を強化するためにハイブリッド組込みを採用する。
一方、3D空間情報は、反復的に更新された3D地上面から位置埋め込みとして注入される。
LATRは、合成アポロと現実的なOpenLaneの両方の最先端の手法を大きなマージンで上回る(例えば、OpenLaneのF1スコアの11.4ゲイン)。
コードはhttps://github.com/JMoonr/LATRでリリースされる。
関連論文リスト
- Enhancing 3D Lane Detection and Topology Reasoning with 2D Lane Priors [40.92232275558338]
3次元車線検出とトポロジー推論は、自動運転シナリオにおいて必須のタスクである。
Topo2DはTransformerをベースとした新しいフレームワークで、2Dレーンインスタンスを利用して3Dクエリと3D位置埋め込みを初期化する。
Topo2Dは、マルチビュートポロジ推論ベンチマークOpenLane-V2で44.5% OLS、シングルビュー3Dレーン検出ベンチマークOpenLaneで62.6%のF-Socreを達成した。
論文 参考訳(メタデータ) (2024-06-05T09:48:56Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - MonoGAE: Roadside Monocular 3D Object Detection with Ground-Aware
Embeddings [29.050983641961658]
そこで我々は,モノGAEという,地表面認識による道路面モノクロ3次元物体検出のための新しいフレームワークを提案する。
提案手法は,道路側カメラの広範に認識されている3次元検出ベンチマークにおいて,従来のモノクル3次元物体検出器と比較して,かなりの性能上の優位性を示す。
論文 参考訳(メタデータ) (2023-09-30T14:52:26Z) - An Efficient Transformer for Simultaneous Learning of BEV and Lane
Representations in 3D Lane Detection [55.281369497158515]
3次元車線検出のための効率的な変圧器を提案する。
バニラ変圧器と異なり、我々のモデルは車線とBEVの表現を同時に学習するクロスアテンション機構を含んでいる。
本手法は,2次元および3次元の車線特徴を画像ビューとBEVの特徴にそれぞれ適用することにより,2次元および3次元車線予測を実現する。
論文 参考訳(メタデータ) (2023-06-08T04:18:31Z) - CAPE: Camera View Position Embedding for Multi-View 3D Object Detection [100.02565745233247]
現在のクエリベースの手法は、画像と3次元空間の幾何学的対応を学習するために、グローバルな3D位置埋め込みに依存している。
本稿では,CAPE と呼ばれる,CAmera view position Embedding に基づく新しい手法を提案する。
CAPEはnuScenesデータセット上の全てのLiDARフリーメソッドの中で最先端のパフォーマンス(61.0% NDSと52.5% mAP)を達成する。
論文 参考訳(メタデータ) (2023-03-17T18:59:54Z) - Reconstruct from Top View: A 3D Lane Detection Approach based on
Geometry Structure Prior [19.1954119672487]
本研究では,2次元から3次元のレーン再構成プロセスの下での幾何学的構造を利用して,単分子式3次元レーン検出問題に対する高度なアプローチを提案する。
まず, 3次元車線と地上2次元車線との形状を解析し, 先行構造に基づく明示的な監督を提案する。
第2に、2次元レーン表現における構造損失を低減するため、フロントビュー画像からトップビューレーン情報を直接抽出する。
論文 参考訳(メタデータ) (2022-06-21T04:03:03Z) - ONCE-3DLanes: Building Monocular 3D Lane Detection [41.46466150783367]
OnCE-3DLanesは3次元空間にレーンレイアウトアノテーションを付加した実世界の自律走行データセットである。
点雲と画像ピクセルとの明確な関係を利用して、データセットのアノテーションパイプラインは、高品質な3Dレーンの位置を自動的に生成するように設計されている。
論文 参考訳(メタデータ) (2022-04-30T16:35:25Z) - PersFormer: 3D Lane Detection via Perspective Transformer and the
OpenLane Benchmark [109.03773439461615]
PersFormerは、新しいトランスフォーマーベースの空間特徴変換モジュールを備えた、エンドツーエンドのモノクル3Dレーン検出器である。
高品質なアノテーションとシナリオの多様性を備えたOpenLaneと呼ばれる,最初の大規模な3Dレーンデータセットの1つをリリースしました。
論文 参考訳(メタデータ) (2022-03-21T16:12:53Z) - End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection [62.34374949726333]
擬似LiDAR(PL)は、LiDARセンサに基づく手法と安価なステレオカメラに基づく手法の精度ギャップを劇的に減らした。
PLは最先端のディープニューラルネットワークと2D深度マップ出力を3Dポイントクラウド入力に変換することで3Dオブジェクト検出のための3D深度推定を組み合わせている。
我々は、PLパイプライン全体をエンドツーエンドにトレーニングできるように、差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを導入します。
論文 参考訳(メタデータ) (2020-04-07T02:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。