論文の概要: Do Open-Loop Metrics Predict Closed-Loop Driving? A Cross-Benchmark Correlation Study of NAVSIM and Bench2Drive
- arxiv url: http://arxiv.org/abs/2605.00066v1
- Date: Thu, 30 Apr 2026 09:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.667782
- Title: Do Open-Loop Metrics Predict Closed-Loop Driving? A Cross-Benchmark Correlation Study of NAVSIM and Bench2Drive
- Title(参考訳): Open-Loop Metricsは閉ループ運転を予測するか? NAVSIMとBench2Driveの相互比較研究
- Authors: Yiru Wang, Anqing Jiang, Shuo Wang, Yuwen Heng, Hai Yang, Yang Chen, Hao Sun,
- Abstract要約: オープンループ評価は、自動運転プランナーの高速かつ再現可能な評価を提供する。
従来のオープンループメトリクスはクローズドループドライビングスコアと信頼性のない相関を示す。
- 参考スコア(独自算出の注目度): 19.12252168142987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-loop evaluation offers fast, reproducible assessment of autonomous driving planners, but its ability to predict real closed-loop driving performance remains questionable. Prior work has shown that traditional open-loop metrics such as Average Displacement Error (ADE) and Final Displacement Error (FDE) exhibit no reliable correlation with closed-loop Driving Score. In this paper, we ask whether the more recent, safety-aware open-loop metrics introduced by NAVSIM~v2 can bridge this gap. By systematically cross-referencing published results from 15 state-of-the-art methods across NAVSIM (open-loop) and Bench2Drive (closed-loop), we compile a paired dataset of open-loop sub-metrics and closed-loop performance, yielding 8 methods with complete paired data. Our analysis reveals three key findings: (1) the aggregate NAVSIM PDM Score shows a strong positive but non-monotonic correlation with Bench2Drive Driving Score, with clear ranking inversions; (2) among individual NAVSIM sub-metrics, Ego Progress (EP) is the strongest single predictor of closed-loop success, substantially exceeding the safety-critical collision metric NC; (3) the safety-progress trade-off manifests differently in open-loop and closed-loop: methods that maximize safety at the expense of progress rank highly in NAVSIM but underperform in closed-loop due to timeout and slow-driving penalties. We further demonstrate that a much simpler 3-metric formula matches the predictive power of the full 5-metric PDMS at the same Spearman $ρ{=}0.90$ on our paired sample of $n{=}8$ methods, suggesting that within current state-of-the-art methods -- where TTC and Comfort approach saturation -- these two sub-metrics add little marginal information for closed-loop ranking. Additionally, we identify the snowball effect -- where small open-loop deviations compound into closed-loop failures -- as a candidate mechanism for the residual gap.
- Abstract(参考訳): オープンループ評価は、自律走行プランナの高速かつ再現可能な評価を提供するが、実際のクローズドループ走行性能を予測する能力は疑問視されている。
Average Displacement Error (ADE) や Final Displacement Error (FDE) といった従来のオープンループメトリクスは、クローズドループのドライビングスコアと信頼性がないことを示している。
本稿では,NAVSIM~v2が導入した,より最近の安全を意識したオープンループメトリクスが,このギャップを埋めるかどうかを問う。
NAVSIM(open-loop)とBench2Drive(closed-loop)にまたがる15の最先端手法の公開結果を体系的に相互参照することにより、オープンループのサブメトリックとクローズドループのパフォーマンスのペアデータセットをコンパイルし、完全なペアデータで8つのメソッドを生成する。
1) NAVSIM PDMスコアはベンチ2Drive ドライビングスコアと強い正の相関を示すが, 明確なランクインバージョンを持つ。(2) NAVSIMサブメトリックでは, エゴプログレス(EP)はクローズループ成功の最も強い予測因子であり, NCをはるかに上回っている。(3) オープンループとクローズループのトレードオフは, オープンループとクローズループでは異なる。
さらに、より単純な3次元式は、同じSpearman $ρ{=}0.90$で5次元PDMSの予測力と一致することを証明し、現在の最先端メソッド -- TTC と Comfort のアプローチ飽和 -- において、これらの2つのサブメトリックは閉ループのランク付けにわずかな限界情報を加えることを示唆している。
さらに、雪だるま効果 - 小さな開ループ偏差が閉ループ障害に合併する - を残留ギャップの候補メカニズムとして特定する。
関連論文リスト
- Accelerating Single-Pass SGD for Generalized Linear Prediction [10.482631815569919]
ストリーミング環境下での一般化線形予測について検討し、各イテレーションは勾配レベルの更新に1つの新しいデータポイントのみを使用する。
そこで本研究では,新しいデータ依存的近位法によりモーメントをうまく組み込んだ最初のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-03-02T15:04:00Z) - Pseudo-Simulation for Autonomous Driving [66.1981253104508]
既存の自動運転車(AV)の評価パラダイムは、重大な制限に直面している。
現実世界の評価は、安全上の懸念と現実主義の欠如のためにしばしば困難である。
オープンループ評価は、一般的に複合的なエラーを見落としているメトリクスに依存する。
論文 参考訳(メタデータ) (2025-06-04T17:57:53Z) - Hydra-NeXt: Robust Closed-Loop Driving with Open-Loop Training [64.16445087751039]
Hydra-NeXtは、軌道予測、制御予測、軌道修正ネットワークを一つのモデルに統合する、新しいマルチブランチ計画フレームワークである。
Hydra-NeXt は22.98 DS と 17.49 SR を上回り、自動運転の大幅な進歩を示している。
論文 参考訳(メタデータ) (2025-03-15T07:42:27Z) - NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking [65.24988062003096]
我々は,視覚に基づく運転ポリシーをベンチマークするフレームワークであるNAVSIMを提案する。
我々のシミュレーションは非反応性であり、評価された政策と環境は互いに影響を与えない。
NAVSIMはCVPR 2024で開催され、143チームが433のエントリーを提出し、いくつかの新たな洞察を得た。
論文 参考訳(メタデータ) (2024-06-21T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。