論文の概要: HiP-AD: Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder
- arxiv url: http://arxiv.org/abs/2503.08612v1
- Date: Tue, 11 Mar 2025 16:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 19:17:34.241740
- Title: HiP-AD: Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder
- Title(参考訳): HiP-AD: 単一デコーダにおける自律運転の変形注意を考慮した階層的・多角的計画
- Authors: Yingqi Tang, Zhuoran Xu, Zhaotie Meng, Erkang Cheng,
- Abstract要約: 我々は、HiP-ADと呼ばれる新しいエンドツーエンドの自動運転フレームワークを提案する。
HiP-ADは同時に、統合デコーダ内で認識、予測、計画を行う。
HiP-ADは、クローズドループベンチマークであるBench2Driveにおいて、既存のエンドツーエンドの自動運転手法よりも優れていることを示した。
- 参考スコア(独自算出の注目度): 3.0989923815412204
- License:
- Abstract: Although end-to-end autonomous driving (E2E-AD) technologies have made significant progress in recent years, there remains an unsatisfactory performance on closed-loop evaluation. The potential of leveraging planning in query design and interaction has not yet been fully explored. In this paper, we introduce a multi-granularity planning query representation that integrates heterogeneous waypoints, including spatial, temporal, and driving-style waypoints across various sampling patterns. It provides additional supervision for trajectory prediction, enhancing precise closed-loop control for the ego vehicle. Additionally, we explicitly utilize the geometric properties of planning trajectories to effectively retrieve relevant image features based on physical locations using deformable attention. By combining these strategies, we propose a novel end-to-end autonomous driving framework, termed HiP-AD, which simultaneously performs perception, prediction, and planning within a unified decoder. HiP-AD enables comprehensive interaction by allowing planning queries to iteratively interact with perception queries in the BEV space while dynamically extracting image features from perspective views. Experiments demonstrate that HiP-AD outperforms all existing end-to-end autonomous driving methods on the closed-loop benchmark Bench2Drive and achieves competitive performance on the real-world dataset nuScenes.
- Abstract(参考訳): 近年、エンド・ツー・エンドの自動運転技術(E2E-AD)は大きな進歩を遂げているが、クローズドループ評価には不満足なパフォーマンスが残っている。
クエリ設計とインタラクションにおける計画の活用の可能性はまだ十分に検討されていない。
本稿では,多様なサンプリングパターンにまたがる空間,時間,運転スタイルの経路点を含む異種経路点を統合した多言語計画クエリ表現を提案する。
軌道予測のための追加の監視を提供し、エゴ車両の正確なクローズドループ制御を強化する。
さらに,計画軌跡の幾何学的特性を明示的に利用して,変形可能な注意力を用いて,物理的位置に基づいて関連画像の特徴を効果的に検索する。
これらの戦略を組み合わせることで、統合デコーダ内で認識、予測、計画を同時に行う新しいエンドツーエンドの自動運転フレームワーク、HiP-ADを提案する。
HiP-ADは、視野ビューから画像特徴を動的に抽出しながら、計画クエリがBEV空間内の知覚クエリと反復的に対話できるようにする。
HiP-ADはクローズドループベンチマークであるBench2Driveにおいて、既存のエンドツーエンドの自動運転手法よりも優れており、実際のデータセットnuScenes上での競合的なパフォーマンスを実現している。
関連論文リスト
- The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey [50.62538723793247]
ドライビング・ワールド・モデル(DWM)は、ドライビング・プロセス中のシーンの進化を予測することに焦点を当てている。
DWM法は、自律運転システムが動的運転環境をよりよく知覚し、理解し、相互作用することを可能にする。
論文 参考訳(メタデータ) (2025-02-14T18:43:15Z) - End-to-End Predictive Planner for Autonomous Driving with Consistency Models [5.966385886363771]
軌道予測と計画は、自動運転車が動的環境において安全かつ効率的に航行するための基本的な要素である。
伝統的に、これらのコンポーネントは、しばしば別々のモジュールとして扱われ、インタラクティブな計画を実行する能力を制限する。
単一の一貫性モデルで予測と計画を統合する,統一的でデータ駆動のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T00:26:01Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
本稿では,LAW(Latent World Model)を用いたエンドツーエンド運転のための自己教師型学習手法を提案する。
LAWは、現在の特徴とエゴ軌道に基づいて将来のシーン機能を予測する。
この自己監督タスクは、知覚のない、知覚に基づくフレームワークにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z) - SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation [11.011219709863875]
我々はSparseDriveという新しいエンドツーエンドの自動運転パラダイムを提案する。
SparseDriveは対称なスパース認識モジュールとパラレルモーションプランナーで構成されている。
動作予測と計画について,これら2つの課題の相似性を概観し,運動プランナの並列設計に繋がる。
論文 参考訳(メタデータ) (2024-05-30T02:13:56Z) - Path Planning based on 2D Object Bounding-box [8.082514573754954]
都会の運転シナリオにおける模倣学習を通じて開発された物体の2次元境界ボックスを利用する経路計画法を提案する。
これは、高精細(HD)マップデータと周囲のカメラが捉えた画像を統合することで実現される。
我々は, nuPlan計画課題におけるモデルの評価を行い, 既存のビジョン中心の手法と比較して, 競争力があることを示した。
論文 参考訳(メタデータ) (2024-02-22T19:34:56Z) - PPAD: Iterative Interactions of Prediction and Planning for End-to-end Autonomous Driving [57.89801036693292]
PPAD(Iterative Interaction of Prediction and Planning Autonomous Driving)は、予測と計画のより良い統合を目的とした、タイムステップワイドなインタラクションである。
我々は,階層的動的キーオブジェクトに着目したego-to-agent,ego-to-map,ego-to-BEVインタラクション機構を設計し,インタラクションをモデル化する。
論文 参考訳(メタデータ) (2023-11-14T11:53:24Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - End-to-End Interactive Prediction and Planning with Optical Flow
Distillation for Autonomous Driving [16.340715765227475]
本稿では,自律運転のためのエンドツーエンド対話型ニューラルモーションプランナ(INMP)を提案する。
INMPはまず鳥の目線空間で特徴マップを生成し、それを処理して他のエージェントを検出し、インタラクティブな予測と計画を共同で実行します。
また, 実時間推定速度を維持しつつ, ネットワーク性能を効果的に向上できる光フロー蒸留パラダイムを採用している。
論文 参考訳(メタデータ) (2021-04-18T14:05:18Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。