論文の概要: TopoBDA: Towards Bezier Deformable Attention for Road Topology Understanding
- arxiv url: http://arxiv.org/abs/2412.18951v1
- Date: Wed, 25 Dec 2024 17:31:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:26:32.579082
- Title: TopoBDA: Towards Bezier Deformable Attention for Road Topology Understanding
- Title(参考訳): TopoBDA: 道路トポロジー理解のためのベジエ変形注意に向けて
- Authors: Muhammet Esat Kalfaoglu, Halil Ibrahim Ozturk, Ozsel Kilinc, Alptekin Temizel,
- Abstract要約: TopoBDA (Topology with Bezier Deformable Attention) は,道路トポロジーの理解を高める新しいアプローチである。
BDAはベジエ制御点を利用して変形可能な注意機構を駆動する。
TopoBDAはマルチカメラの360度画像を処理してBird's Eye View(BEV)機能を生成する。
- 参考スコア(独自算出の注目度): 2.8498944632323755
- License:
- Abstract: Understanding road topology is crucial for autonomous driving. This paper introduces TopoBDA (Topology with Bezier Deformable Attention), a novel approach that enhances road topology understanding by leveraging Bezier Deformable Attention (BDA). BDA utilizes Bezier control points to drive the deformable attention mechanism, significantly improving the detection and representation of elongated and thin polyline structures, such as lane centerlines. TopoBDA processes multi-camera 360-degree imagery to generate Bird's Eye View (BEV) features, which are refined through a transformer decoder employing BDA. This method enhances computational efficiency while maintaining high accuracy in centerline prediction. Additionally, TopoBDA incorporates an instance mask formulation and an auxiliary one-to-many set prediction loss strategy to further refine centerline detection and improve road topology understanding. Experimental evaluations on the OpenLane-V2 dataset demonstrate that TopoBDA outperforms existing methods, achieving state-of-the-art results in centerline detection and topology reasoning. The integration of multi-modal data, including lidar and radar, specifically for road topology understanding, further enhances the model's performance, underscoring its importance in autonomous driving applications.
- Abstract(参考訳): 道路トポロジを理解することは自動運転にとって不可欠である。
本稿では,Bezier Deformable Attention (BDA)を活用して道路トポロジー理解を高める新しいアプローチであるTopoBDAを紹介する。
BDAはベジエ制御点を用いて変形可能なアテンション機構を駆動し、レーン中心線のような細長いポリライン構造の検出と表現を大幅に改善する。
TopoBDAはマルチカメラの360度画像を処理してBird's Eye View(BEV)機能を生成する。
この方法は、中心線予測において高精度を維持しながら計算効率を向上させる。
さらに、TopoBDAは、インスタンスマスクの定式化と補助的な1対多の予測損失戦略を導入し、センターラインの検出をさらに洗練し、道路トポロジーの理解を改善する。
OpenLane-V2データセットの実験的評価では、TopoBDAは既存の手法よりも優れており、センターライン検出とトポロジー推論の最先端の結果が得られている。
道路トポロジー理解のためのライダーやレーダーを含むマルチモーダルデータの統合により、モデルの性能がさらに向上し、自動運転アプリケーションにおけるその重要性が強調される。
関連論文リスト
- TopoSD: Topology-Enhanced Lane Segment Perception with SDMap Prior [70.84644266024571]
我々は、標準定義地図(SDMaps)を見るために知覚モデルを訓練することを提案する。
我々はSDMap要素をニューラル空間マップ表現やインスタンストークンにエンコードし、先行情報のような補完的な特徴を組み込む。
レーンセグメント表現フレームワークに基づいて、モデルはレーン、中心線、およびそれらのトポロジを同時に予測する。
論文 参考訳(メタデータ) (2024-11-22T06:13:42Z) - Hierarchical End-to-End Autonomous Driving: Integrating BEV Perception with Deep Reinforcement Learning [23.21761407287525]
エンドツーエンドの自動運転は、従来のモジュラーパイプラインに代わる合理化された代替手段を提供する。
深層強化学習(Dep Reinforcement Learning, DRL)は、最近この分野で注目を集めている。
DRL特徴抽出ネットワークを認識フェーズに直接マッピングすることで、このギャップを埋める。
論文 参考訳(メタデータ) (2024-09-26T09:14:16Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Pixel to Elevation: Learning to Predict Elevation Maps at Long Range using Images for Autonomous Offroad Navigation [10.898724668444125]
本稿では,車載エゴセントリック画像のみをリアルタイムに利用して,長距離の地形標高マップを予測できる学習型アプローチを提案する。
複雑で非構造的な地形における自律型オフロードロボットナビゲーションへの提案手法の適用性を実験的に検証した。
論文 参考訳(メタデータ) (2024-01-30T22:37:24Z) - FENet: Focusing Enhanced Network for Lane Detection [0.0]
この研究は、Focusing Smpling、Partial Field of View Evaluation、Enhanced FPN Architecture、Directional IoU Lossで拡張されたネットワークのパイオニアである。
実験では、均一なアプローチとは異なり、重要な遠隔の細部を強調しながら、集中サンプリング戦略を実証した。
今後の方向性には、道路上のデータ収集や、補完的な2つのフレームワークの統合などが含まれる。
論文 参考訳(メタデータ) (2023-12-28T17:52:09Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - V2X-AHD:Vehicle-to-Everything Cooperation Perception via Asymmetric
Heterogenous Distillation Network [13.248981195106069]
車両間協調認識システム(V2X-AHD)を提案する。
この研究によると、V2X-AHDは3次元物体検出の精度を効果的に向上し、ネットワークパラメータの数を削減できる。
論文 参考訳(メタデータ) (2023-10-10T13:12:03Z) - Improving Online Lane Graph Extraction by Object-Lane Clustering [106.71926896061686]
本稿では,局所レーングラフの推定精度を向上させるために,アーキテクチャと損失の定式化を提案する。
提案手法は,中心線をクラスタ中心とすることで,対象を中心線に割り当てることを学ぶ。
提案手法は既存の3次元オブジェクト検出手法の出力を用いて,大幅な性能向上を実現することができることを示す。
論文 参考訳(メタデータ) (2023-07-20T15:21:28Z) - An Efficient Transformer for Simultaneous Learning of BEV and Lane
Representations in 3D Lane Detection [55.281369497158515]
3次元車線検出のための効率的な変圧器を提案する。
バニラ変圧器と異なり、我々のモデルは車線とBEVの表現を同時に学習するクロスアテンション機構を含んでいる。
本手法は,2次元および3次元の車線特徴を画像ビューとBEVの特徴にそれぞれ適用することにより,2次元および3次元車線予測を実現する。
論文 参考訳(メタデータ) (2023-06-08T04:18:31Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。