論文の概要: TopoBDA: Towards Bezier Deformable Attention for Road Topology Understanding
- arxiv url: http://arxiv.org/abs/2412.18951v1
- Date: Wed, 25 Dec 2024 17:31:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 21:44:05.017329
- Title: TopoBDA: Towards Bezier Deformable Attention for Road Topology Understanding
- Title(参考訳): TopoBDA: 道路トポロジー理解のためのベジエ変形注意に向けて
- Authors: Muhammet Esat Kalfaoglu, Halil Ibrahim Ozturk, Ozsel Kilinc, Alptekin Temizel,
- Abstract要約: TopoBDA (Topology with Bezier Deformable Attention) は,道路トポロジーの理解を高める新しいアプローチである。
BDAはベジエ制御点を利用して変形可能な注意機構を駆動する。
TopoBDAはマルチカメラの360度画像を処理してBird's Eye View(BEV)機能を生成する。
- 参考スコア(独自算出の注目度): 2.8498944632323755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding road topology is crucial for autonomous driving. This paper introduces TopoBDA (Topology with Bezier Deformable Attention), a novel approach that enhances road topology understanding by leveraging Bezier Deformable Attention (BDA). BDA utilizes Bezier control points to drive the deformable attention mechanism, significantly improving the detection and representation of elongated and thin polyline structures, such as lane centerlines. TopoBDA processes multi-camera 360-degree imagery to generate Bird's Eye View (BEV) features, which are refined through a transformer decoder employing BDA. This method enhances computational efficiency while maintaining high accuracy in centerline prediction. Additionally, TopoBDA incorporates an instance mask formulation and an auxiliary one-to-many set prediction loss strategy to further refine centerline detection and improve road topology understanding. Experimental evaluations on the OpenLane-V2 dataset demonstrate that TopoBDA outperforms existing methods, achieving state-of-the-art results in centerline detection and topology reasoning. The integration of multi-modal data, including lidar and radar, specifically for road topology understanding, further enhances the model's performance, underscoring its importance in autonomous driving applications.
- Abstract(参考訳): 道路トポロジを理解することは自動運転にとって不可欠である。
本稿では,Bezier Deformable Attention (BDA)を活用して道路トポロジー理解を高める新しいアプローチであるTopoBDAを紹介する。
BDAはベジエ制御点を用いて変形可能なアテンション機構を駆動し、レーン中心線のような細長いポリライン構造の検出と表現を大幅に改善する。
TopoBDAはマルチカメラの360度画像を処理してBird's Eye View(BEV)機能を生成する。
この方法は、中心線予測において高精度を維持しながら計算効率を向上させる。
さらに、TopoBDAは、インスタンスマスクの定式化と補助的な1対多の予測損失戦略を導入し、センターラインの検出をさらに洗練し、道路トポロジーの理解を改善する。
OpenLane-V2データセットの実験的評価では、TopoBDAは既存の手法よりも優れており、センターライン検出とトポロジー推論の最先端の結果が得られている。
道路トポロジー理解のためのライダーやレーダーを含むマルチモーダルデータの統合により、モデルの性能がさらに向上し、自動運転アプリケーションにおけるその重要性が強調される。
関連論文リスト
- Depth3DLane: Monocular 3D Lane Detection via Depth Prior Distillation [5.909083729156255]
限界に対処し、3次元車線検出精度を向上させるためのBEVベースのフレームワークを提案する。
教師モデルから意味深度知識を伝達するために,Depth Prior Distillationを活用する。
本手法は,z軸誤差による最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-25T13:08:41Z) - RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。
RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文 参考訳(メタデータ) (2024-12-17T09:47:48Z) - TopoSD: Topology-Enhanced Lane Segment Perception with SDMap Prior [70.84644266024571]
我々は、標準定義地図(SDMaps)を見るために知覚モデルを訓練することを提案する。
我々はSDMap要素をニューラル空間マップ表現やインスタンストークンにエンコードし、先行情報のような補完的な特徴を組み込む。
レーンセグメント表現フレームワークに基づいて、モデルはレーン、中心線、およびそれらのトポロジを同時に予測する。
論文 参考訳(メタデータ) (2024-11-22T06:13:42Z) - DV-3DLane: End-to-end Multi-modal 3D Lane Detection with Dual-view Representation [40.71071200694655]
DV-3DLaneは、新しいエンドツーエンドDual-Viewマルチモーダル3Dレーン検出フレームワークである。
画像とLiDAR点の両方の強度を相乗化する。
最先端のパフォーマンスを実現し、F1スコアが11.2、エラーが53.5%減少している。
論文 参考訳(メタデータ) (2024-06-23T10:48:42Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - FENet: Focusing Enhanced Network for Lane Detection [0.0]
この研究は、Focusing Smpling、Partial Field of View Evaluation、Enhanced FPN Architecture、Directional IoU Lossで拡張されたネットワークのパイオニアである。
実験では、均一なアプローチとは異なり、重要な遠隔の細部を強調しながら、集中サンプリング戦略を実証した。
今後の方向性には、道路上のデータ収集や、補完的な2つのフレームワークの統合などが含まれる。
論文 参考訳(メタデータ) (2023-12-28T17:52:09Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D
Object Detection [15.204935788297226]
ODM3Dフレームワークは、トレーニング中にLiDARドメインの知識を単分子検出器に注入するために、様々なレベルでのクロスモーダルな知識蒸留を必要とする。
既存手法の準最適トレーニングの主要因として,前景の空間空間を同定することにより,LiDAR点に埋め込まれた正確な位置化情報を活用する。
KITTI検証とテストベンチマークの両方で1位にランクインし、教師付きまたは半教師付きである既存のモノクラー手法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-10-28T07:12:09Z) - Improving Online Lane Graph Extraction by Object-Lane Clustering [106.71926896061686]
本稿では,局所レーングラフの推定精度を向上させるために,アーキテクチャと損失の定式化を提案する。
提案手法は,中心線をクラスタ中心とすることで,対象を中心線に割り当てることを学ぶ。
提案手法は既存の3次元オブジェクト検出手法の出力を用いて,大幅な性能向上を実現することができることを示す。
論文 参考訳(メタデータ) (2023-07-20T15:21:28Z) - An Efficient Transformer for Simultaneous Learning of BEV and Lane
Representations in 3D Lane Detection [55.281369497158515]
3次元車線検出のための効率的な変圧器を提案する。
バニラ変圧器と異なり、我々のモデルは車線とBEVの表現を同時に学習するクロスアテンション機構を含んでいる。
本手法は,2次元および3次元の車線特徴を画像ビューとBEVの特徴にそれぞれ適用することにより,2次元および3次元車線予測を実現する。
論文 参考訳(メタデータ) (2023-06-08T04:18:31Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Dense Voxel Fusion for 3D Object Detection [10.717415797194896]
ボクセル融合 (Voxel Fusion, DVF) は, 多スケール密度ボクセル特徴表現を生成する逐次融合法である。
地上の真理2Dバウンディングボックスラベルを直接トレーニングし、ノイズの多い検出器固有の2D予測を避けます。
提案したマルチモーダルトレーニング戦略は, 誤った2次元予測を用いたトレーニングに比べ, より一般化できることを示す。
論文 参考訳(メタデータ) (2022-03-02T04:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。