論文の概要: BEVTraj: Map-Free End-to-End Trajectory Prediction in Bird's-Eye View with Deformable Attention and Sparse Goal Proposals
- arxiv url: http://arxiv.org/abs/2509.10080v1
- Date: Fri, 12 Sep 2025 09:17:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.027305
- Title: BEVTraj: Map-Free End-to-End Trajectory Prediction in Bird's-Eye View with Deformable Attention and Sparse Goal Proposals
- Title(参考訳): BEVTraj: 変形可能な注意とスパースゴール提案を伴うバードアイビューにおける地図自由終端軌道予測
- Authors: Minsang Kong, Myeongjun Kim, Sang Gu Kang, Sang Hun Lee,
- Abstract要約: 本稿では,自律運転のためのBird's-Eye View Trajectory Prediction (BEVTraj)を提案する。
これは、事前に構築された地図に頼ることなく、リアルタイムセンサーデータを利用する鳥眼ビュー(BEV)空間で直接動作する。
高い柔軟性を提供しながら、最先端のHDマップベースのモデルに匹敵するパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 0.8166364251367625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In autonomous driving, trajectory prediction is essential for ensuring safe and efficient navigation. To improve prediction accuracy, recent approaches often rely on pre-built high-definition (HD) maps or real-time local map construction modules to incorporate static environmental information. However, pre-built HD maps are limited to specific regions and cannot adapt to transient changes. In addition, local map construction modules, which recognize only predefined elements, may fail to capture critical scene details or introduce errors that degrade prediction performance. To overcome these limitations, we propose Bird's-Eye View Trajectory Prediction (BEVTraj), a novel trajectory prediction framework that operates directly in the bird's-eye view (BEV) space utilizing real-time sensor data without relying on any pre-built maps. The BEVTraj leverages deformable attention to efficiently extract relevant context from dense BEV features. Furthermore, we introduce a Sparse Goal Candidate Proposal (SGCP) module, which enables full end-to-end prediction without requiring any post-processing steps. Extensive experiments demonstrate that the BEVTraj achieves performance comparable to state-of-the-art HD map-based models while offering greater flexibility by eliminating the dependency on pre-built maps. The source code is available at https://github.com/Kongminsang/bevtraj.
- Abstract(参考訳): 自律運転においては、軌道予測は安全かつ効率的な航法を保証するために不可欠である。
予測精度を向上させるため、近年のアプローチでは、静的な環境情報を組み込むために、事前に構築されたHDマップやリアルタイムローカルマップ構築モジュールに頼っていることが多い。
しかし、事前構築されたHDマップは特定の領域に限定されており、過渡的な変化に対応できない。
さらに、事前定義された要素のみを認識するローカルマップ構築モジュールは、重要なシーンの詳細をキャプチャしたり、予測性能を低下させるエラーを発生させることができない可能性がある。
このような制約を克服するために, 事前に構築した地図を使わずに, リアルタイムのセンサデータを利用した鳥眼視(BEV)空間内で直接動作する新しい軌道予測フレームワークであるBird's-Eye View Trajectory Prediction (BEVTraj)を提案する。
BEVTrajは変形可能な注意を利用して、密集したBEV特徴から関連したコンテキストを効率的に抽出する。
さらに、スパースゴール候補提案(SGCP)モジュールを導入し、後処理ステップを必要とせずに、完全なエンドツーエンド予測を可能にする。
大規模な実験により、BEVTrajは最先端のHDマップベースモデルに匹敵するパフォーマンスを達成し、事前構築されたマップへの依存を排除し、より柔軟性を提供する。
ソースコードはhttps://github.com/Kongminsang/bevtraj.comで入手できる。
関連論文リスト
- Uncertainty-Instructed Structure Injection for Generalizable HD Map Construction [17.16231247910372]
UIGenMapは、一般化可能なHDマップベクトル化のための不確実な構造注入手法である。
本稿では、視線ビュー(PV)検出ブランチを導入し、構造的特徴を明示する。
地理的に不整合(geo-based)なデータに挑戦する実験は、UIGenMapが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-03-29T15:01:38Z) - Unified Human Localization and Trajectory Prediction with Monocular Vision [64.19384064365431]
MonoTransmotionはトランスフォーマーベースのフレームワークで、モノクロカメラのみを使用して、ローカライゼーションと予測タスクを共同で解決する。
両タスクを統合フレームワークで共同でトレーニングすることにより,ノイズの多い入力による実環境シナリオにおいて,我々の手法がより堅牢であることを示す。
論文 参考訳(メタデータ) (2025-03-05T14:18:39Z) - TopoSD: Topology-Enhanced Lane Segment Perception with SDMap Prior [70.84644266024571]
我々は、標準定義地図(SDMaps)を見るために知覚モデルを訓練することを提案する。
我々はSDMap要素をニューラル空間マップ表現やインスタンストークンにエンコードし、先行情報のような補完的な特徴を組み込む。
レーンセグメント表現フレームワークに基づいて、モデルはレーン、中心線、およびそれらのトポロジを同時に予測する。
論文 参考訳(メタデータ) (2024-11-22T06:13:42Z) - Map-Free Trajectory Prediction with Map Distillation and Hierarchical Encoding [8.857237929151795]
MFTPはMap-Free Trajectory Prediction法であり、いくつかの利点がある。
まず、推論中のHDマップの必要性を排除し、知識蒸留によるトレーニング中のマップ事前の恩恵を享受する。
第二に、空間的時間的エージェントの特徴を効果的に抽出し、それらを複数のトラジェクトリクエリに集約する新しい階層エンコーダを提案する。
論文 参考訳(メタデータ) (2024-11-17T04:50:44Z) - CASPFormer: Trajectory Prediction from BEV Images with Deformable
Attention [4.9349065371630045]
本研究では,空間化されたBird-Eye-View(BEV)画像からマルチモーダルな動作予測を行うことができるコンテキスト認識シーン予測変換器(CASPFormer)を提案する。
我々のシステムは、BEV画像を生成することができる上流認識モジュールと統合することができる。
我々は、nuScenesデータセット上でモデルを評価し、複数のメトリクスにまたがって最先端に到達していることを示す。
論文 参考訳(メタデータ) (2024-09-26T12:37:22Z) - PrevPredMap: Exploring Temporal Modeling with Previous Predictions for Online Vectorized HD Map Construction [9.32290307534907]
PrevPredMapは、オンラインベクトル化HDマップの構築に以前の予測を活用する、時間的モデリングの先駆的なフレームワークである。
このフレームワークはnuScenesとArgoverse2データセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-07-24T15:58:24Z) - MapPrior: Bird's-Eye View Map Layout Estimation with Generative Models [24.681557413829317]
MapPriorは、従来のBEV知覚モデルと、セマンティックマップレイアウトのための学習された生成モデルを組み合わせた、新しいBEV知覚フレームワークである。
提出時点でMapPriorは、カメラおよびLiDARベースのBEV知覚において、MDDとECEのスコアを大幅に改善し、最強の競合方法を上回っている。
論文 参考訳(メタデータ) (2023-08-24T17:58:30Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - LOPR: Latent Occupancy PRediction using Generative Models [49.15687400958916]
LiDARの生成した占有グリッドマップ(L-OGM)は、頑丈な鳥の視線シーンを表現している。
本稿では,学習空間内での表現学習と予測という,占有率予測を分離する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-03T22:04:00Z) - Spatiotemporal Relationship Reasoning for Pedestrian Intent Prediction [57.56466850377598]
視覚データに対する推論は、ロボティクスとビジョンベースのアプリケーションにとって望ましい能力である。
本稿では,歩行者の意図を推論するため,現場の異なる物体間の関係を明らかにするためのグラフ上でのフレームワークを提案する。
歩行者の意図は、通りを横切る、あるいは横断しない将来の行動として定義され、自動運転車にとって非常に重要な情報である。
論文 参考訳(メタデータ) (2020-02-20T18:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。