論文の概要: TopoBDA: Towards Bezier Deformable Attention for Road Topology Understanding
- arxiv url: http://arxiv.org/abs/2412.18951v2
- Date: Wed, 26 Mar 2025 08:29:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:18:23.053884
- Title: TopoBDA: Towards Bezier Deformable Attention for Road Topology Understanding
- Title(参考訳): TopoBDA: 道路トポロジー理解のためのベジエ変形注意に向けて
- Authors: Muhammet Esat Kalfaoglu, Halil Ibrahim Ozturk, Ozsel Kilinc, Alptekin Temizel,
- Abstract要約: 本稿では,道路トポロジの理解を深める新しいアプローチであるTopoBDAを紹介する。
TopoBDAは、マルチカメラの360度画像を処理して、Bird's Eye View(BEV)機能を生成する。
BDAはベジエ制御点を用いて変形可能なアテンション機構を駆動し、細長いポリリン構造の検出と表現を改善している。
- 参考スコア(独自算出の注目度): 2.8498944632323755
- License:
- Abstract: Understanding road topology is crucial for autonomous driving. This paper introduces TopoBDA (Topology with Bezier Deformable Attention), a novel approach that enhances road topology comprehension by leveraging Bezier Deformable Attention (BDA). TopoBDA processes multi-camera 360-degree imagery to generate Bird's Eye View (BEV) features, which are refined through a transformer decoder employing BDA. BDA utilizes Bezier control points to drive the deformable attention mechanism, improving the detection and representation of elongated and thin polyline structures, such as lane centerlines. Additionally, TopoBDA integrates two auxiliary components: an instance mask formulation loss and a one-to-many set prediction loss strategy, to further refine centerline detection and enhance road topology understanding. Experimental evaluations on the OpenLane-V2 dataset demonstrate that TopoBDA outperforms existing methods, achieving state-of-the-art results in centerline detection and topology reasoning. TopoBDA also achieves the best results on the OpenLane-V1 dataset in 3D lane detection. Further experiments on integrating multi-modal data -- such as LiDAR, radar, and SDMap -- show that multimodal inputs can further enhance performance in road topology understanding.
- Abstract(参考訳): 道路トポロジを理解することは自動運転にとって不可欠である。
本稿では,Bezier Deformable Attention (BDA)を活用して道路トポロジの理解を高める新しいアプローチであるTopoBDAを紹介する。
TopoBDAはマルチカメラの360度画像を処理してBird's Eye View(BEV)機能を生成する。
BDAはベジエ制御点を用いて変形可能なアテンション機構を駆動し、レーン中心線のような細長いポリライン構造の検出と表現を改善している。
さらに、TopoBDAは、インスタンスマスクの定式化損失と1対多の予測損失戦略の2つの補助成分を統合し、センターラインの検出をさらに洗練し、道路トポロジーの理解を深める。
OpenLane-V2データセットの実験的評価では、TopoBDAは既存の手法よりも優れており、センターライン検出とトポロジー推論の最先端の結果が得られている。
TopoBDAはまた、3Dレーン検出におけるOpenLane-V1データセットの最良の結果も達成している。
LiDAR、レーダー、SDMapといったマルチモーダルデータの統合に関するさらなる実験は、マルチモーダル入力が道路トポロジー理解におけるパフォーマンスをさらに向上させることを示した。
関連論文リスト
- SpaRC: Sparse Radar-Camera Fusion for 3D Object Detection [5.36022165180739]
本稿では,マルチビュー画像セマンティクスとレーダとカメラポイント機能を統合した3次元認識のための新しいスパース融合変換器であるSpaRCを提案する。
nuScenes と TruckScenes のベンチマークに関する実証的な評価は、SpaRC が既存の密度の高い BEV ベースおよびスパースクエリベースの検出器より著しく優れていることを示している。
論文 参考訳(メタデータ) (2024-11-29T17:17:38Z) - TopoSD: Topology-Enhanced Lane Segment Perception with SDMap Prior [70.84644266024571]
我々は、標準定義地図(SDMaps)を見るために知覚モデルを訓練することを提案する。
我々はSDMap要素をニューラル空間マップ表現やインスタンストークンにエンコードし、先行情報のような補完的な特徴を組み込む。
レーンセグメント表現フレームワークに基づいて、モデルはレーン、中心線、およびそれらのトポロジを同時に予測する。
論文 参考訳(メタデータ) (2024-11-22T06:13:42Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Pixel to Elevation: Learning to Predict Elevation Maps at Long Range using Images for Autonomous Offroad Navigation [10.898724668444125]
本稿では,車載エゴセントリック画像のみをリアルタイムに利用して,長距離の地形標高マップを予測できる学習型アプローチを提案する。
複雑で非構造的な地形における自律型オフロードロボットナビゲーションへの提案手法の適用性を実験的に検証した。
論文 参考訳(メタデータ) (2024-01-30T22:37:24Z) - FENet: Focusing Enhanced Network for Lane Detection [0.0]
この研究は、Focusing Smpling、Partial Field of View Evaluation、Enhanced FPN Architecture、Directional IoU Lossで拡張されたネットワークのパイオニアである。
実験では、均一なアプローチとは異なり、重要な遠隔の細部を強調しながら、集中サンプリング戦略を実証した。
今後の方向性には、道路上のデータ収集や、補完的な2つのフレームワークの統合などが含まれる。
論文 参考訳(メタデータ) (2023-12-28T17:52:09Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - V2X-AHD:Vehicle-to-Everything Cooperation Perception via Asymmetric
Heterogenous Distillation Network [13.248981195106069]
車両間協調認識システム(V2X-AHD)を提案する。
この研究によると、V2X-AHDは3次元物体検出の精度を効果的に向上し、ネットワークパラメータの数を削減できる。
論文 参考訳(メタデータ) (2023-10-10T13:12:03Z) - Improving Online Lane Graph Extraction by Object-Lane Clustering [106.71926896061686]
本稿では,局所レーングラフの推定精度を向上させるために,アーキテクチャと損失の定式化を提案する。
提案手法は,中心線をクラスタ中心とすることで,対象を中心線に割り当てることを学ぶ。
提案手法は既存の3次元オブジェクト検出手法の出力を用いて,大幅な性能向上を実現することができることを示す。
論文 参考訳(メタデータ) (2023-07-20T15:21:28Z) - An Efficient Transformer for Simultaneous Learning of BEV and Lane
Representations in 3D Lane Detection [55.281369497158515]
3次元車線検出のための効率的な変圧器を提案する。
バニラ変圧器と異なり、我々のモデルは車線とBEVの表現を同時に学習するクロスアテンション機構を含んでいる。
本手法は,2次元および3次元の車線特徴を画像ビューとBEVの特徴にそれぞれ適用することにより,2次元および3次元車線予測を実現する。
論文 参考訳(メタデータ) (2023-06-08T04:18:31Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。